Skip to content
星际流动

Mitigating Distribution Sharpening in Math RLVR via Distribution-Aligned Hint Synthesis and Backward Hint Annealing

发布
采集
学术前沿 7.0 分 — 解决数学RLVR的分布锐化问题:教师-学生分布不对齐+hint退火策略,提升大k覆盖率,对RLVR实际效果有改进。
原文: arxiv.org

评分 7 · 来源: · 发布于 2026-04-10

评分依据:解决数学RLVR的分布锐化问题:教师-学生分布不对齐+hint退火策略,提升大k覆盖率,对RLVR实际效果有改进。