Skip to content
星际流动

Prune as You Generate:RLVR 在线剪枝加速训练并提升效果

发布
采集
工程实践 7.0 分 — 直接解决 GRPO/DAPO 的计算成本痛点,在线剪枝同时提升效果是少见的双赢优化
原文: cs.CL updates on arXiv.org

评分 7.0 · 来源:cs.CL updates on arXiv.org · 发布于 2026-03-27

评分依据:直接解决 GRPO/DAPO 的计算成本痛点,在线剪枝同时提升效果是少见的双赢优化

要点

GRPO 和 DAPO 等 RLVR 方法依赖大量采样,计算成本极高且多数样本的组内奖励方差极低。Prune as You Generate 在生成过程中动态评估并剪枝低质量 rollout,减少无效计算。

方法的核心优势在于:剪枝不仅降低了计算成本,还通过减少噪声样本提升了最终模型性能——实现了成本与效果的「双赢」。

🤖 AI 点评

RLVR 训练成本是当前最大的规模化瓶颈之一。如果在线剪枝能有效减少 30-50% 的无效采样,这对开源模型的 RL 训练民主化将有重要意义。结合 DeepSeek 的实践经验,这种「训练中优化」的思路比训练后优化更高效。


标签: