评分依据:解决数学RLVR的分布锐化问题:教师-学生分布不对齐+hint退火策略,提升大k覆盖率,对RLVR实际效果有改进。
Mitigating Distribution Sharpening in Math RLVR via Distribution-Aligned Hint Synthesis and Backward Hint Annealing
原文: arxiv.org
评分依据:解决数学RLVR的分布锐化问题:教师-学生分布不对齐+hint退火策略,提升大k覆盖率,对RLVR实际效果有改进。