评分 6.6 · 来源:arXiv cs.AI · 发布于 2026-04-13
评分依据:精准击中当前 coding agent 的核心盲区——判断何时该求助而非盲目猜测。benchmark 设计理念新颖。
问题:Agent 的盲目自信
当前的 coding agent benchmark(SWE-bench、HumanEval 等)都有一个隐性假设:指令是完整且明确的。Agent 只需「正确执行」。
但现实完全不同:
- 需求文档永远是不完整的
- 业务规则存在隐含假设
- 技术方案存在 trade-off 需要讨论
现有的 benchmark 中,一个 agent 猜对了缺失需求和要求明确的 agent 得到相同分数。这掩盖了一个关键能力差异:判断力(judgment)。
HiL-Bench 设计
HiL-Bench 的核心创新:
- 故意不完整的规格:每个任务都缺少关键信息,agent 必须识别缺失
- 双轴评估:不只看执行正确率,还评估「求助行为」的恰当性
- 过早求助 = 能力不足
- 过晚求助 = 浪费时间走弯路
- 不求助就猜 = 危险的盲目自信
- 覆盖多类不确定性:歧义需求、缺失依赖、隐含约束、冲突指令
初步发现
论文指出前沿 coding agent(包括 Claude、GPT 级别模型驱动)在完整规格下表现强劲,但在不完整规格下的表现显著退化,且退化模式因模型而异。
对产品设计的启示
- Claude Code / Codex 等应考虑内置「confidence estimation」,在不确定时主动提示用户
- Agent 产品应区分「执行模式」和「咨询模式」,前者追求效率后者追求安全
- 这与 SEA-Eval 的长期评估视角结合,可以形成 agent 成熟度评估的完整框架
论文: arXiv:2604.09408