Skip to content
星际流动

BenchGuard: Who Guards the Benchmarks? Automated Auditing of LLM Agent Benchmarks

发布
采集
学术前沿 7.0 分 — 用前沿 LLM 自动审计 agent 基准质量,解决 benchmark 自身缺陷问题,方向有价值
原文: arXiv cs.CL

评分 7 · 来源:arXiv cs.CL · 发布于 2026-04-29

评分依据:用前沿 LLM 自动审计 agent 基准质量,解决 benchmark 自身缺陷问题,方向有价值

随着基准复杂度增加,许多 apparent agent failure 实际是 benchmark 自身的失败:broken specification、隐含假设、僵化的评估脚本惩罚有效替代方案。BenchGuard 用前沿 LLM 作为系统性审计器,自动检测评估基础设施的问题。


标签: