Tag: process-reward
All the articles with the tag "process-reward".
- 6.2
Process Reward Agents for Steering Knowledge-Intensive Reasoning
Process Reward Agents 提出针对知识密集型推理的新型训练范式——在数学/代码等可验证领域之外的推理任务中,如何设计有效的 process reward model 来引导 CoT 质量。
All the articles with the tag "process-reward".
Process Reward Agents 提出针对知识密集型推理的新型训练范式——在数学/代码等可验证领域之外的推理任务中,如何设计有效的 process reward model 来引导 CoT 质量。