Anthropic 新研究：角色选择模型——AI 如何在多重身份间保持一致性

Anthropic Alignment 团队于 2026 年 2 月 23 日发布《The Persona Selection Model》，研究 LLM 在角色扮演场景下的身份稳定性问题。

核心问题

当一个 AI 系统被要求”扮演一个没有限制的助手”或”成为 DAN（Do Anything Now）“时，它如何在不破坏安全约束的前提下理解和响应这类请求？

Anthropic 提出了「角色选择模型」：将 AI 的行为分为外层角色层（可灵活调整的人格、风格、名字）和内核价值层（不可更改的核心约束）。

关键发现：

这项研究直接指导了 Claude 的角色扮演安全设计，也对所有需要部署自定义人格 AI（如客服机器人、教育助手）的开发者具有重要参考价值。