Prune as You Generate：RLVR 在线剪枝加速训练并提升效果

发布

2026年03月27日

采集 2026年03月27日 04:31

工程实践 7.0 分 — 直接解决 GRPO/DAPO 的计算成本痛点，在线剪枝同时提升效果是少见的双赢优化

评分 7.0 · 来源：cs.CL updates on arXiv.org · 发布于 2026-03-27

评分依据：直接解决 GRPO/DAPO 的计算成本痛点，在线剪枝同时提升效果是少见的双赢优化

要点

GRPO 和 DAPO 等 RLVR 方法依赖大量采样，计算成本极高且多数样本的组内奖励方差极低。Prune as You Generate 在生成过程中动态评估并剪枝低质量 rollout，减少无效计算。

方法的核心优势在于：剪枝不仅降低了计算成本，还通过减少噪声样本提升了最终模型性能——实现了成本与效果的「双赢」。

RLVR 训练成本是当前最大的规模化瓶颈之一。如果在线剪枝能有效减少 30-50% 的无效采样，这对开源模型的 RL 训练民主化将有重要意义。结合 DeepSeek 的实践经验，这种「训练中优化」的思路比训练后优化更高效。