Skip to content
星际流动

Self-Distilled RLVR:自蒸馏提升推理模型的强化学习效率

发布
采集
学术前沿 6.7 分 — 自蒸馏+RLVR 的组合探索有价值,但与已有方法相比改进幅度有限,研究增量中等
原文: arXiv cs.LG

评分 6.7 · 来源:arXiv cs.LG · 发布于 2026-04-06

评分依据:自蒸馏+RLVR 的组合探索有价值,但与已有方法相比改进幅度有限,研究增量中等

要点

策略内蒸馏(OPD)已成为 LLM 训练的流行范式,使用更大模型为每条轨迹提供密集信号。本研究探索策略内自蒸馏(OPSD),让同一模型同时充当教师和学生,教师获得额外特权信息来提供更细粒度的信号。

与使用可验证奖励的 RLVR 相比,自蒸馏能提供更密集的训练信号,但研究也发现这种方法的收益受限于模型自身能力的上限。

🤖 AI 点评

自己教自己听起来不太靠谱,但如果教师版本能看到学生看不到的信息(比如答案),确实能提供更有针对性的反馈。不过,模型的「教学天花板」还是自身能力——再怎么自蒸馏也变不出不知道的知识。


标签: