评分 5.5 · 来源:arXiv cs.AI · 发布于 2026-04-13
评分依据:针对 deep research agent 的浏览+计算联合 benchmark,填补了现有 benchmark 将两者割裂评估的空白。
Deep Research Agent 的评估空白
Deep research agent(如 OpenAI Deep Research、Gemini Deep Research、Perplexity 的 research 功能)的核心能力是交替进行信息检索和推理计算。
然而现有 benchmark 要么只测浏览能力(WebArena 等),要么只测推理能力(MMLU、GPQA 等),没有工具能同时评估两者的协同效果。
DRBENCHER 方案
DRBENCHER 是一个合成 benchmark 生成器(而非固定数据集):
- 问题模板系统:生成需要先识别实体 → 检索属性 → 做数学/逻辑运算的多步问题
- 可控难度:可以调节检索深度、计算复杂度、实体模糊度等维度
- 自动评分:每步都有确定性答案,可以精确评估 agent 在哪一步出错
为什么现在重要
- Deep research 正在成为 AI 产品的核心差异化功能(OpenAI、Google、Perplexity 都在押注)
- DRBENCHER 类似的评估思路可以扩展到更多「agent + 工具」协同场景
- 与 Process Reward Agents 论文结合:deep research 中的推理步骤恰好是不可验证的——process reward 可以派上用场
局限性
- 合成问题与真实研究问题的差距(真实研究更需要开放式的文献综合能力)
- 目前只覆盖实体-属性-计算模式,不支持因果推理、反事实分析等更复杂的研究模式
论文: arXiv:2604.09251