Skip to content
星际流动

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

发布
采集
学术前沿 6.4 分 — SPPO 解决了 token-level PPO 在长 CoT 推理中的时序信用分配难题和 value model 内存瓶颈,是 RL 训练推理模型的核心工程突破。
原文: arXiv cs.AI

评分 6.4 · 来源:arXiv cs.AI · 发布于 2026-04-13

评分依据:SPPO 解决了 token-level PPO 在长 CoT 推理中的时序信用分配难题和 value model 内存瓶颈,是 RL 训练推理模型的核心工程突破。

PPO 在长程推理中的两难困境

PPO 是 LLM 对齐的核心算法(RLHF 的主力),但在长 CoT 推理中遇到两个致命问题:

问题 1:时序信用分配(Temporal Credit Assignment)

Token-level PPO 对 CoT 的每一步 token 分配 credit/reward。但当 CoT 长达数百步时:

问题 2:Value Model 内存爆炸

PPO 需要 value model 来估计每个状态的期望回报。长 CoT 意味着:

SPPO 的解决方案

Sequence-Level Reward

不再对每个 token 打分,而是对整个输出序列打分:

高效的 Value Estimation

与 GRPO/DPO 的对比

方法信用分配粒度内存效率适用场景
Token-PPOPer-token短序列
GRPOGroup-level中等序列
SPPOSequence-level长 CoT
DPO无(离线)最高有偏好数据时

实际影响

论文: arXiv:2604.08865


标签: