Skip to content
星际流动

ClawsBench:模拟工作空间中的 LLM 生产力 Agent 能力与安全评估

发布
采集
学术前沿 7.0 分 — 填补了生产力Agent评估基准的空白,能力+安全双维度评估有实用参考价值
原文: cs.AI updates on arXiv.org

评分 7.0 · 来源:cs.AI updates on arXiv.org · 发布于 2026-04-08

评分依据:填补了生产力Agent评估基准的空白,能力+安全双维度评估有实用参考价值

要点

LLM 生产力 Agent(如计算机使用型 Agent)的能力和安全评估缺乏标准化基准。ClawsBench 构建了模拟工作空间环境,覆盖文件管理、邮件处理、日程安排等多种办公场景,同时评估 Agent 的任务完成能力和安全边界。

基准测试发现当前模型在简单任务上表现不错,但在需要多步推理的复杂场景和安全敏感操作上仍存在显著差距。

🤖 AI 点评

计算机使用 Agent 正在爆发式增长,但「到底能做什么、不能做什么」缺乏统一评估。ClawsBench 的价值在于它不只测能力,还测安全——一个能帮你发邮件但可能误删文件的 Agent 比没有 Agent 更危险。


标签: