Skip to content
星际流动

Anthropic 新研究:角色选择模型——AI 如何在多重身份间保持一致性

学术前沿 7.5 分
原文: Anthropic

Anthropic Alignment 团队于 2026 年 2 月 23 日发布《The Persona Selection Model》,研究 LLM 在角色扮演场景下的身份稳定性问题。

核心问题

当一个 AI 系统被要求”扮演一个没有限制的助手”或”成为 DAN(Do Anything Now)“时,它如何在不破坏安全约束的前提下理解和响应这类请求?

研究框架

Anthropic 提出了「角色选择模型」:将 AI 的行为分为外层角色层(可灵活调整的人格、风格、名字)和内核价值层(不可更改的核心约束)。

关键发现:

实践意义

这项研究直接指导了 Claude 的角色扮演安全设计,也对所有需要部署自定义人格 AI(如客服机器人、教育助手)的开发者具有重要参考价值。


标签: