SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

发布

2026年04月13日

采集 2026年04月13日 04:31

学术前沿 6.4 分 — SPPO 解决了 token-level PPO 在长 CoT 推理中的时序信用分配难题和 value model 内存瓶颈，是 RL 训练推理模型的核心工程突破。

原文： arXiv cs.AI

评分 6.4 · 来源：arXiv cs.AI · 发布于 2026-04-13

评分依据：SPPO 解决了 token-level PPO 在长 CoT 推理中的时序信用分配难题和 value model 内存瓶颈，是 RL 训练推理模型的核心工程突破。

PPO 在长程推理中的两难困境

PPO 是 LLM 对齐的核心算法（RLHF 的主力），但在长 CoT 推理中遇到两个致命问题：

问题 1：时序信用分配（Temporal Credit Assignment）

Token-level PPO 对 CoT 的每一步 token 分配 credit/reward。但当 CoT 长达数百步时：

一个早期的小错误可能导致整个推理链偏离
但如果最终答案碰巧正确，所有 token 都会被正向奖励（虚假相关性）
反之，早期正确但后期走偏，好 token 可能被惩罚

问题 2：Value Model 内存爆炸

PPO 需要 value model 来估计每个状态的期望回报。长 CoT 意味着：

需要存储大量中间状态的 value
显存占用随序列长度线性（甚至超线性）增长
实际训练时 batch size 被严重限制

SPPO 的解决方案

Sequence-Level Reward

不再对每个 token 打分，而是对整个输出序列打分：

用一个全局 quality score 替代 per-token reward
避免了 token级的信用分配难题

高效的 Value Estimation

不再维护完整的 per-token value function
采用简化的序列级 baseline 估计
内存消耗大幅降低，batch size 可以增大

与 GRPO/DPO 的对比

方法	信用分配粒度	内存效率	适用场景
Token-PPO	Per-token	低	短序列
GRPO	Group-level	中	中等序列
SPPO	Sequence-level	高	长 CoT
DPO	无（离线）	最高	有偏好数据时

实际影响

长 CoT 推理（数学证明、代码生成、科学研究）的训练效率可以直接提升
对开源 RL 训练框架（TRL、ReAlign）有直接的集成价值
为 Process Reward Agents 提供了更好的训练算法基础

论文: arXiv:2604.08865

标签：

Enhancing LLM Problem Solving via Tutor-Student Multi-Agent Interaction

CodecSight: Leveraging Video Codec Signals for Efficient Streaming VLM Inference