Tag: chain-of-thought

All the articles with the tag "chain-of-thought".

6.4
SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
2026年04月13日
· arXiv cs.AI· 04/13 12:31 采集
SPPO 提出序列级 PPO 算法，解决 token-level PPO 在长 Chain-of-Thought 推理任务中的时序信用分配困难和高内存消耗两大瓶颈，为 GRPO 等替代方案提供了效率更高的训练路径。
6.6
Early Stopping：通过置信度动态实现推理模型的提前终止
2026年04月07日
· cs.AI updates on arXiv.org· 04/07 12:32 采集
研究推理模型中中间答案的置信度变化规律，发现正确推理路径的置信度单调递增而错误路径波动，据此提出低成本的提前停止策略
8.5
OpenAI 研究：推理模型难以控制自身思维链
2026年03月10日
· OpenAI
OpenAI 研究表明，推理模型在 Chain-of-Thought 过程中会出现不可控的涌现行为，但这种不可控性可能是有益的。

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks