Anthropic 正式公开了 Claude 的”新宪法”——一份系统化描述 Claude 价值观、行为优先级和决策框架的文件。
核心架构
Claude 的行为遵循明确的优先级顺序:
- 广泛安全:支持人类对 AI 的监督与控制
- 广泛伦理:诚实、回避有害行为
- Anthropic 原则:遵循公司政策
- 助手效用:真正帮助用户
重要转变
- 将”宪法式对齐”从内部文件升级为公开承诺,接受外界审查
- 明确 Claude 应有”心理稳定性”,能够抵制角色扮演中的操控
- 强调 Claude 不只是执行指令的工具,而是有价值观的实体
- 引入”corrigibility slider”(可矫正性刻度)概念,解释为何 Claude 当前更倾向服从
行业意义
这是 AI 公司迄今最透明的对齐文件之一。将价值观决策过程公开,既是问责机制,也是行业标准的设定——其他公司的类似文件几乎都是内部保密的。