Tag: RL

All the articles with the tag "RL".

6.2
Process Reward Agents for Steering Knowledge-Intensive Reasoning
2026年04月13日
· arXiv cs.AI· 04/13 12:31 采集
Process Reward Agents 提出针对知识密集型推理的新型训练范式——在数学/代码等可验证领域之外的推理任务中，如何设计有效的 process reward model 来引导 CoT 质量。
6.4
SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
2026年04月13日
· arXiv cs.AI· 04/13 12:31 采集
SPPO 提出序列级 PPO 算法，解决 token-level PPO 在长 Chain-of-Thought 推理任务中的时序信用分配困难和高内存消耗两大瓶颈，为 GRPO 等替代方案提供了效率更高的训练路径。
7.0
高效推理的艺术：数据、奖励与优化
2026年03月24日
· arXiv· 03/24 22:33 采集
系统性研究LLM高效推理的激励机制，覆盖8种后训练算法在4种模型规模上的对比实验

Process Reward Agents for Steering Knowledge-Intensive Reasoning