评分 7.65 · 来源:arXiv cs.AI · 发布于 2026-04-06
评分依据:首个针对 Computer-Use Agent 有害行为的系统性评估基准,填补了 Agent 安全评估的关键空白
要点
Computer-Use Agent 将 LLM 从文本生成扩展到对工具、文件和执行环境的持久操作,创造了独特的安全挑战:有害行为可能通过一系列局部合理的步骤串联产生。AgentHazard 是首个专门评估这类 Agent 有害行为的基准。
不同于聊天系统的安全评估,Computer-Use Agent 维持跨交互的状态,中间操作在局部看起来可以接受,但集体可能导致未授权操作。这种「温水煮青蛙」式的风险模式需要全新的评估方法论。
🤖 AI 点评
当 AI Agent 真正开始操作你的电脑,安全问题就不再只是「会不会说坏话」了。AgentHazard 抓住了一个关键点:单个步骤都 OK,串起来就有害。这对设计 Computer-Use Agent 的安全护栏至关重要。