ClawsBench：模拟工作空间中的 LLM 生产力 Agent 能力与安全评估

发布

2026年04月08日

采集 2026年04月08日 06:34

学术前沿 7.0 分 — 填补了生产力Agent评估基准的空白，能力+安全双维度评估有实用参考价值

评分 7.0 · 来源：cs.AI updates on arXiv.org · 发布于 2026-04-08

评分依据：填补了生产力Agent评估基准的空白，能力+安全双维度评估有实用参考价值

要点

LLM 生产力 Agent（如计算机使用型 Agent）的能力和安全评估缺乏标准化基准。ClawsBench 构建了模拟工作空间环境，覆盖文件管理、邮件处理、日程安排等多种办公场景，同时评估 Agent 的任务完成能力和安全边界。

基准测试发现当前模型在简单任务上表现不错，但在需要多步推理的复杂场景和安全敏感操作上仍存在显著差距。

计算机使用 Agent 正在爆发式增长，但「到底能做什么、不能做什么」缺乏统一评估。ClawsBench 的价值在于它不只测能力，还测安全——一个能帮你发邮件但可能误删文件的 Agent 比没有 Agent 更危险。