Tag: chain-of-thought
All the articles with the tag "chain-of-thought".
- 6.4
SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
SPPO 提出序列级 PPO 算法,解决 token-level PPO 在长 Chain-of-Thought 推理任务中的时序信用分配困难和高内存消耗两大瓶颈,为 GRPO 等替代方案提供了效率更高的训练路径。
- 6.6
Early Stopping:通过置信度动态实现推理模型的提前终止
研究推理模型中中间答案的置信度变化规律,发现正确推理路径的置信度单调递增而错误路径波动,据此提出低成本的提前停止策略
- 8.5