评分 7.0 · 来源:cs.CL updates on arXiv.org · 发布于 2026-03-27
评分依据:揭示 OPD 在长程场景的系统性脆弱性并提出修复方案,对当前主流训练方法有直接指导价值
要点
On-Policy Distillation (OPD) 在 LLM 后训练中备受关注,因为它在学生生成的 rollout 上评估教师反馈而非固定教师轨迹。然而在长程场景下,常见的采样 token 变体极其脆弱——将分布匹配简化为单 token 信号,随着 rollout 偏离教师常见区域,信号越来越不可靠。
论文从理论和实证两个维度重新审视 OPD,识别了关键失败模式,并提出了简单有效的修复方案。
🤖 AI 点评
OPD 是当前 Qwen、DeepSeek 等模型后训练的关键技术。如果采样 token 信号在长程推理中不可靠,那么当前蒸馏策略的 Scaling 逻辑可能存在天花板。这项工作的修复方案值得所有使用 OPD 的团队关注。