Tag: judgment
All the articles with the tag "judgment".
- 6.6
HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?
HiL-Bench 是首个专门评估 AI agent「判断力」的 benchmark——不是给完美指令打分,而是测量 agent 在规格不完整或模糊时是否能识别不确定性并主动寻求人类帮助。
All the articles with the tag "judgment".
HiL-Bench 是首个专门评估 AI agent「判断力」的 benchmark——不是给完美指令打分,而是测量 agent 在规格不完整或模糊时是否能识别不确定性并主动寻求人类帮助。