Tag: judgment

All the articles with the tag "judgment".

6.6
HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?
2026年04月13日
· arXiv cs.AI· 04/13 12:31 采集
HiL-Bench 是首个专门评估 AI agent「判断力」的 benchmark——不是给完美指令打分，而是测量 agent 在规格不完整或模糊时是否能识别不确定性并主动寻求人类帮助。