Skip to content
AI Feed
Go back

Anthropic 新研究:角色选择模型——AI 如何在多重身份间保持一致性

Anthropic Alignment 团队于 2026 年 2 月 23 日发布《The Persona Selection Model》,研究 LLM 在角色扮演场景下的身份稳定性问题。

核心问题

当一个 AI 系统被要求”扮演一个没有限制的助手”或”成为 DAN(Do Anything Now)“时,它如何在不破坏安全约束的前提下理解和响应这类请求?

研究框架

Anthropic 提出了「角色选择模型」:将 AI 的行为分为外层角色层(可灵活调整的人格、风格、名字)和内核价值层(不可更改的核心约束)。

关键发现:

实践意义

这项研究直接指导了 Claude 的角色扮演安全设计,也对所有需要部署自定义人格 AI(如客服机器人、教育助手)的开发者具有重要参考价值。


Share this post on:

Previous Post
Anthropic 承诺:Claude Opus 3 不提前下线,给开发者更长迁移窗口
Next Post
Anthropic 研究:AI 如何影响编程技能习得——帮助还是阻碍?