评分 6.5 · 来源:arXiv cs.AI · 发布于 2026-04-23
评分依据:SWARM框架用软概率标签替代二元分类评估多Agent系统安全性,抓住了分布式安全评估的核心不确定性问题。
多Agent AI系统产生没有任何单个Agent能单独制造的涌现风险。现有安全框架依赖对Agent行为的二元分类,丢弃了基于代理评估中固有的不确定性。
SWARM框架:
- System-Wide Assessment of Risk in Multi-agent systems
- 用软概率标签替代二元好/坏判断
- 捕获分布式安全评估中的本质不确定性
- 通过模拟框架量化涌现风险
- 识别单一Agent安全但系统级危险的场景