评分 6.2 · 来源:arXiv cs.AI · 发布于 2026-04-13
评分依据:针对知识密集型推理中中间步骤不可验证的核心难题提出 process reward 方向,这是当前 reasoning 研究的重要空白。
核心问题
当前 LLM 推理训练(如 PPO、GRPO)严重依赖可验证奖励(verifiable rewards)——数学题有确定答案,代码可以跑测试。但现实世界中大量推理任务是知识密集型的:法律分析、医疗诊断、历史研究、科学假设评估。这些领域的中间步骤无法简单判定对错,错误会静默传播直到最终结论出错。
Process Reward 方案
论文提出的核心思路:
- 非局部可验证性建模:承认知识密集型推理的正确性需要综合多个外部知识源的线索才能判断
- Process Reward Model 设计:不直接评判每步对错,而是评估「该步骤是否合理地缩小了假设空间」或「是否引入了相关证据」
- 隐式错误传播检测:通过分析推理链后端的矛盾来回溯前端可能出错的步骤
为什么这很重要
- 当前 SOTA coding agent(Claude Code、Codex)在工程任务上表现优异,但迁移到研究型、分析型任务时大幅退化
- 这与 HiL-Bench 发现的问题互补:HiL-Bench 说 agent 不知道何时求助,本文说即使去做了也难以自我纠偏
- 为 SPPO 等序列级优化方法提供了新的奖励信号来源
局限与展望
- Process reward model 本身的训练数据从哪来?仍需人工标注或强模型辅助
- 不同知识领域(法律 vs 医学 vs 金融)的 process reward 是否可以通用?
- 与 RAG 结合时,检索质量如何影响 process reward 的可靠性?
论文: arXiv:2604.09482