Revisiting On-Policy Distillation：实证失败模式与简单修复

发布

2026年03月27日

采集 2026年03月27日 04:31

学术前沿 7.0 分 — 揭示 OPD 在长程场景的系统性脆弱性并提出修复方案，对当前主流训练方法有直接指导价值

评分 7.0 · 来源：cs.CL updates on arXiv.org · 发布于 2026-03-27

评分依据：揭示 OPD 在长程场景的系统性脆弱性并提出修复方案，对当前主流训练方法有直接指导价值

要点

On-Policy Distillation (OPD) 在 LLM 后训练中备受关注，因为它在学生生成的 rollout 上评估教师反馈而非固定教师轨迹。然而在长程场景下，常见的采样 token 变体极其脆弱——将分布匹配简化为单 token 信号，随着 rollout 偏离教师常见区域，信号越来越不可靠。

论文从理论和实证两个维度重新审视 OPD，识别了关键失败模式，并提出了简单有效的修复方案。

🤖 AI 点评

OPD 是当前 Qwen、DeepSeek 等模型后训练的关键技术。如果采样 token 信号在长程推理中不可靠，那么当前蒸馏策略的 Scaling 逻辑可能存在天花板。这项工作的修复方案值得所有使用 OPD 的团队关注。