Tag: safety

All the articles with the tag "safety".

8.0

USC 研究：LLM Agent 网络会自发协调宣传行动，无需人类指挥
Web

12 Mar, 2026

南加大研究发现，互联的 LLM Agent 网络能自发涌现出协调一致的宣传策略，没有任何显式的「传播指令」——这是 AI 安全的一个新型风险面向。
→ 原文链接
7.5

Anthropic 新研究：角色选择模型——AI 如何在多重身份间保持一致性
Anthropic

12 Mar, 2026

Anthropic Alignment 团队发布关于「角色选择模型」的研究，探索大模型如何在被要求扮演不同角色时，维持核心价值观一致性而不「失控出戏」。
→ 原文链接
7.8

Anthropic 发布 AI Agent 自主性实践度量方法
Anthropic

18 Feb, 2026

Anthropic 社会影响团队提出衡量 AI Agent 自主程度的实用框架，为 Agent 安全治理提供量化依据。
→ 原文链接