Tag: safety
All the articles with the tag "safety".
- 8.0
- 7.5
Anthropic 新研究:角色选择模型——AI 如何在多重身份间保持一致性
AnthropicAnthropic Alignment 团队发布关于「角色选择模型」的研究,探索大模型如何在被要求扮演不同角色时,维持核心价值观一致性而不「失控出戏」。
→ 原文链接 - 7.8
Anthropic 发布 AI Agent 自主性实践度量方法
AnthropicAnthropic 社会影响团队提出衡量 AI Agent 自主程度的实用框架,为 Agent 安全治理提供量化依据。
→ 原文链接