BenchGuard: Who Guards the Benchmarks? Automated Auditing of LLM Agent Benchmarks

发布

2026年04月29日

采集 2026年04月29日 06:31

学术前沿 7.0 分 — 用前沿 LLM 自动审计 agent 基准质量，解决 benchmark 自身缺陷问题，方向有价值

评分 7 · 来源：arXiv cs.CL · 发布于 2026-04-29

评分依据：用前沿 LLM 自动审计 agent 基准质量，解决 benchmark 自身缺陷问题，方向有价值

随着基准复杂度增加，许多 apparent agent failure 实际是 benchmark 自身的失败：broken specification、隐含假设、僵化的评估脚本惩罚有效替代方案。BenchGuard 用前沿 LLM 作为系统性审计器，自动检测评估基础设施的问题。

标签：