评分 6.4 · 来源:arXiv cs.AI · 发布于 2026-04-13
评分依据:SPPO 解决了 token-level PPO 在长 CoT 推理中的时序信用分配难题和 value model 内存瓶颈,是 RL 训练推理模型的核心工程突破。
PPO 在长程推理中的两难困境
PPO 是 LLM 对齐的核心算法(RLHF 的主力),但在长 CoT 推理中遇到两个致命问题:
问题 1:时序信用分配(Temporal Credit Assignment)
Token-level PPO 对 CoT 的每一步 token 分配 credit/reward。但当 CoT 长达数百步时:
- 一个早期的小错误可能导致整个推理链偏离
- 但如果最终答案碰巧正确,所有 token 都会被正向奖励(虚假相关性)
- 反之,早期正确但后期走偏,好 token 可能被惩罚
问题 2:Value Model 内存爆炸
PPO 需要 value model 来估计每个状态的期望回报。长 CoT 意味着:
- 需要存储大量中间状态的 value
- 显存占用随序列长度线性(甚至超线性)增长
- 实际训练时 batch size 被严重限制
SPPO 的解决方案
Sequence-Level Reward
不再对每个 token 打分,而是对整个输出序列打分:
- 用一个全局 quality score 替代 per-token reward
- 避免了 token级的信用分配难题
高效的 Value Estimation
- 不再维护完整的 per-token value function
- 采用简化的序列级 baseline 估计
- 内存消耗大幅降低,batch size 可以增大
与 GRPO/DPO 的对比
| 方法 | 信用分配粒度 | 内存效率 | 适用场景 |
|---|---|---|---|
| Token-PPO | Per-token | 低 | 短序列 |
| GRPO | Group-level | 中 | 中等序列 |
| SPPO | Sequence-level | 高 | 长 CoT |
| DPO | 无(离线) | 最高 | 有偏好数据时 |
实际影响
- 长 CoT 推理(数学证明、代码生成、科学研究)的训练效率可以直接提升
- 对开源 RL 训练框架(TRL、ReAlign)有直接的集成价值
- 为 Process Reward Agents 提供了更好的训练算法基础
论文: arXiv:2604.08865