Skip to content
星际流动

DRBENCHER: Can Your Agent Identify the Entity, Retrieve Its Properties and Do the Math?

发布
采集
学术前沿 5.5 分 — 针对 deep research agent 的浏览+计算联合 benchmark,填补了现有 benchmark 将两者割裂评估的空白。
原文: arXiv cs.AI

评分 5.5 · 来源:arXiv cs.AI · 发布于 2026-04-13

评分依据:针对 deep research agent 的浏览+计算联合 benchmark,填补了现有 benchmark 将两者割裂评估的空白。

Deep Research Agent 的评估空白

Deep research agent(如 OpenAI Deep Research、Gemini Deep Research、Perplexity 的 research 功能)的核心能力是交替进行信息检索和推理计算

然而现有 benchmark 要么只测浏览能力(WebArena 等),要么只测推理能力(MMLU、GPQA 等),没有工具能同时评估两者的协同效果。

DRBENCHER 方案

DRBENCHER 是一个合成 benchmark 生成器(而非固定数据集):

  1. 问题模板系统:生成需要先识别实体 → 检索属性 → 做数学/逻辑运算的多步问题
  2. 可控难度:可以调节检索深度、计算复杂度、实体模糊度等维度
  3. 自动评分:每步都有确定性答案,可以精确评估 agent 在哪一步出错

为什么现在重要

局限性

论文: arXiv:2604.09251


标签: