Self-Distilled RLVR：自蒸馏提升推理模型的强化学习效率

发布

2026年04月06日

采集 2026年04月06日 04:33

学术前沿 6.7 分 — 自蒸馏+RLVR 的组合探索有价值，但与已有方法相比改进幅度有限，研究增量中等

评分 6.7 · 来源：arXiv cs.LG · 发布于 2026-04-06

评分依据：自蒸馏+RLVR 的组合探索有价值，但与已有方法相比改进幅度有限，研究增量中等

要点

策略内蒸馏（OPD）已成为 LLM 训练的流行范式，使用更大模型为每条轨迹提供密集信号。本研究探索策略内自蒸馏（OPSD），让同一模型同时充当教师和学生，教师获得额外特权信息来提供更细粒度的信号。

与使用可验证奖励的 RLVR 相比，自蒸馏能提供更密集的训练信号，但研究也发现这种方法的收益受限于模型自身能力的上限。

自己教自己听起来不太靠谱，但如果教师版本能看到学生看不到的信息（比如答案），确实能提供更有针对性的反馈。不过，模型的「教学天花板」还是自身能力——再怎么自蒸馏也变不出不知道的知识。