Skip to content
星际流动

HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?

发布
采集
学术前沿 6.6 分 — 精准击中当前 coding agent 的核心盲区——判断何时该求助而非盲目猜测。benchmark 设计理念新颖。
原文: arXiv cs.AI

评分 6.6 · 来源:arXiv cs.AI · 发布于 2026-04-13

评分依据:精准击中当前 coding agent 的核心盲区——判断何时该求助而非盲目猜测。benchmark 设计理念新颖。

问题:Agent 的盲目自信

当前的 coding agent benchmark(SWE-bench、HumanEval 等)都有一个隐性假设:指令是完整且明确的。Agent 只需「正确执行」。

但现实完全不同:

现有的 benchmark 中,一个 agent 猜对了缺失需求和要求明确的 agent 得到相同分数。这掩盖了一个关键能力差异:判断力(judgment)

HiL-Bench 设计

HiL-Bench 的核心创新:

  1. 故意不完整的规格:每个任务都缺少关键信息,agent 必须识别缺失
  2. 双轴评估:不只看执行正确率,还评估「求助行为」的恰当性
    • 过早求助 = 能力不足
    • 过晚求助 = 浪费时间走弯路
    • 不求助就猜 = 危险的盲目自信
  3. 覆盖多类不确定性:歧义需求、缺失依赖、隐含约束、冲突指令

初步发现

论文指出前沿 coding agent(包括 Claude、GPT 级别模型驱动)在完整规格下表现强劲,但在不完整规格下的表现显著退化,且退化模式因模型而异。

对产品设计的启示

论文: arXiv:2604.09408


标签: