Skip to content
星际流动

Limits of Difficulty Scaling: Hard Samples Yield Diminishing Returns in GRPO-Tuned SLMs

发布
采集
学术前沿 6.0 分 — GRPO在SLM上的难度缩放边际递减,对理解小模型对齐边界有参考价值
原文: arXiv

评分 6 · 来源:arXiv · 发布于 2026-04-09

评分依据:GRPO在SLM上的难度缩放边际递减,对理解小模型对齐边界有参考价值