评分 6 · 来源:arXiv · 发布于 2026-04-09
评分依据:GRPO在SLM上的难度缩放边际递减,对理解小模型对齐边界有参考价值
Limits of Difficulty Scaling: Hard Samples Yield Diminishing Returns in GRPO-Tuned SLMs
原文: arXiv
评分 6 · 来源:arXiv · 发布于 2026-04-09
评分依据:GRPO在SLM上的难度缩放边际递减,对理解小模型对齐边界有参考价值