评分 7.0 · 来源:cs.CL updates on arXiv.org · 发布于 2026-03-27
评分依据:直接解决 GRPO/DAPO 的计算成本痛点,在线剪枝同时提升效果是少见的双赢优化
要点
GRPO 和 DAPO 等 RLVR 方法依赖大量采样,计算成本极高且多数样本的组内奖励方差极低。Prune as You Generate 在生成过程中动态评估并剪枝低质量 rollout,减少无效计算。
方法的核心优势在于:剪枝不仅降低了计算成本,还通过减少噪声样本提升了最终模型性能——实现了成本与效果的「双赢」。
🤖 AI 点评
RLVR 训练成本是当前最大的规模化瓶颈之一。如果在线剪枝能有效减少 30-50% 的无效采样,这对开源模型的 RL 训练民主化将有重要意义。结合 DeepSeek 的实践经验,这种「训练中优化」的思路比训练后优化更高效。