New papers advance on-policy distillation for LLMs

AnalysisAI Models

22 hours ago

New papers advance on-policy distillation for LLMs

Five arxiv papers propose methods to improve on-policy distillation: SEAD uses entropy-guided supervision, Self-Distilled Policy Gradient applies self-distillation, and LARK selects trajectories via learnability. Others address distribution alignment and supervision fidelity decay.

Self-Distilled Policy Gradient26 days agoYifeng Liu, Shiyuan Zhang, Yifan Zhang, Quanquan Gu

Robust Reasoning via Dynamic Token Selection for Distribution-Aligned Self-Distillation28 days agoRuiqi Zhang, Lingxiang Wang, Hainan Zhang Zhiming Zheng

LARK: Learnability-Grounded Trajectory Selection for Efficient Reasoning Distillation29 days agoTianrun Yu, Kaixiang Zhao, Chih-Chun Chen, Amanda Hughes, Taylor W. Killian, Fenglong Ma, Weitong Zhang, Porter Jenkins

Your Teacher Can't Help You Here: Combating Supervision Fidelity Decay in On-Policy Distillation29 days agoYanjiang Liu, Jie Lou, Xinyan Guan, Yuqiu Ji, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Xing Yu, Yaojie Lu

22 hours ago