Limits of Difficulty Scaling: Hard Samples Yield Diminishing Returns in GRPO-Tuned SLMs

发布

2026年04月09日

采集 2026年04月09日 00:00

学术前沿 6.0 分 — GRPO在SLM上的难度缩放边际递减，对理解小模型对齐边界有参考价值

原文： arXiv

评分 6 · 来源：arXiv · 发布于 2026-04-09

评分依据：GRPO在SLM上的难度缩放边际递减，对理解小模型对齐边界有参考价值

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning