DRBENCHER: Can Your Agent Identify the Entity, Retrieve Its Properties and Do the Math?

发布

2026年04月13日

采集 2026年04月13日 04:31

学术前沿 5.5 分 — 针对 deep research agent 的浏览+计算联合 benchmark，填补了现有 benchmark 将两者割裂评估的空白。

原文： arXiv cs.AI

评分 5.5 · 来源：arXiv cs.AI · 发布于 2026-04-13

评分依据：针对 deep research agent 的浏览+计算联合 benchmark，填补了现有 benchmark 将两者割裂评估的空白。

Deep Research Agent 的评估空白

Deep research agent（如 OpenAI Deep Research、Gemini Deep Research、Perplexity 的 research 功能）的核心能力是交替进行信息检索和推理计算。

然而现有 benchmark 要么只测浏览能力（WebArena 等），要么只测推理能力（MMLU、GPQA 等），没有工具能同时评估两者的协同效果。

DRBENCHER 方案

DRBENCHER 是一个合成 benchmark 生成器（而非固定数据集）：

问题模板系统：生成需要先识别实体 → 检索属性 → 做数学/逻辑运算的多步问题
可控难度：可以调节检索深度、计算复杂度、实体模糊度等维度
自动评分：每步都有确定性答案，可以精确评估 agent 在哪一步出错

为什么现在重要

Deep research 正在成为 AI 产品的核心差异化功能（OpenAI、Google、Perplexity 都在押注）
DRBENCHER 类似的评估思路可以扩展到更多「agent + 工具」协同场景
与 Process Reward Agents 论文结合：deep research 中的推理步骤恰好是不可验证的——process reward 可以派上用场

局限性

合成问题与真实研究问题的差距（真实研究更需要开放式的文献综合能力）
目前只覆盖实体-属性-计算模式，不支持因果推理、反事实分析等更复杂的研究模式

论文: arXiv:2604.09251

标签：

HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?

SEA-Eval: A Benchmark for Evaluating Self-Evolving Agents Beyond Episodic Assessment