HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?

评分 6.6 · 来源：arXiv cs.AI · 发布于 2026-04-13

评分依据：精准击中当前 coding agent 的核心盲区——判断何时该求助而非盲目猜测。benchmark 设计理念新颖。

问题：Agent 的盲目自信

当前的 coding agent benchmark（SWE-bench、HumanEval 等）都有一个隐性假设：指令是完整且明确的。Agent 只需「正确执行」。

但现实完全不同：

现有的 benchmark 中，一个 agent 猜对了缺失需求和要求明确的 agent 得到相同分数。这掩盖了一个关键能力差异：判断力（judgment）。

HiL-Bench 的核心创新：

故意不完整的规格：每个任务都缺少关键信息，agent 必须识别缺失
双轴评估：不只看执行正确率，还评估「求助行为」的恰当性
- 过早求助 = 能力不足
- 过晚求助 = 浪费时间走弯路
- 不求助就猜 = 危险的盲目自信
覆盖多类不确定性：歧义需求、缺失依赖、隐含约束、冲突指令

论文指出前沿 coding agent（包括 Claude、GPT 级别模型驱动）在完整规格下表现强劲，但在不完整规格下的表现显著退化，且退化模式因模型而异。