Tag: training

All the articles with the tag "training".

6.4
SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
2026年04月13日
· arXiv cs.AI· 04/13 12:31 采集
SPPO 提出序列级 PPO 算法，解决 token-level PPO 在长 Chain-of-Thought 推理任务中的时序信用分配困难和高内存消耗两大瓶颈，为 GRPO 等替代方案提供了效率更高的训练路径。
8.0
Google 研究提出贝叶斯教学法，让 LLM 学会概率推理更新
2026年03月15日
· InfoQ
Google 研究人员提出一种新训练方法，通过让大模型模拟最优贝叶斯系统的预测，使其具备随新证据动态更新信念的能力，解决了 LLM 推理僵化的核心问题。
7.0
Tree Search Distillation：用 PPO 让语言模型学会「先搜后答」
2026年03月15日
· Hacker News / ayushtambde.com
研究者提出树搜索蒸馏方法，通过 PPO 将 MCTS 等树搜索过程内化到 LLM 推理中，推理时无需额外搜索即可受益。
8.0
2026 年后训练技术全景：GRPO、DAPO、RLVR 如何取代 RLHF
2026年03月13日
· LLM Stats Research
深度综述 GRPO、DAPO、RLVR 等后训练方法如何成为主流，以及合成自博弈数据为何让 RLHF 退出历史舞台。

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks