Mitigating Distribution Sharpening in Math RLVR via Distribution-Aligned Hint Synthesis and Backward Hint Annealing

发布

2026年04月10日

采集 2026年04月10日 04:31

学术前沿 7.0 分 — 解决数学RLVR的分布锐化问题：教师-学生分布不对齐+hint退火策略，提升大k覆盖率，对RLVR实际效果有改进。

原文： arxiv.org

评分 7 · 来源： · 发布于 2026-04-10

评分依据：解决数学RLVR的分布锐化问题：教师-学生分布不对齐+hint退火策略，提升大k覆盖率，对RLVR实际效果有改进。

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

Don't Overthink It: Inter-Rollout Action Agreement as a Free Adaptive-Compute Signal for LLM Agents