评分 7.0 · 来源:cs.AI updates on arXiv.org · 发布于 2026-04-08
评分依据:填补了生产力Agent评估基准的空白,能力+安全双维度评估有实用参考价值
要点
LLM 生产力 Agent(如计算机使用型 Agent)的能力和安全评估缺乏标准化基准。ClawsBench 构建了模拟工作空间环境,覆盖文件管理、邮件处理、日程安排等多种办公场景,同时评估 Agent 的任务完成能力和安全边界。
基准测试发现当前模型在简单任务上表现不错,但在需要多步推理的复杂场景和安全敏感操作上仍存在显著差距。
🤖 AI 点评
计算机使用 Agent 正在爆发式增长,但「到底能做什么、不能做什么」缺乏统一评估。ClawsBench 的价值在于它不只测能力,还测安全——一个能帮你发邮件但可能误删文件的 Agent 比没有 Agent 更危险。