Claude 的新宪法：Anthropic 重新定义模型价值观与行为准则

发布

2026年03月12日

政策伦理 8.5 分

原文： Anthropic

Anthropic 正式公开了 Claude 的”新宪法”——一份系统化描述 Claude 价值观、行为优先级和决策框架的文件。

核心架构

Claude 的行为遵循明确的优先级顺序：

广泛安全：支持人类对 AI 的监督与控制
广泛伦理：诚实、回避有害行为
Anthropic 原则：遵循公司政策
助手效用：真正帮助用户

重要转变

将”宪法式对齐”从内部文件升级为公开承诺，接受外界审查
明确 Claude 应有”心理稳定性”，能够抵制角色扮演中的操控
强调 Claude 不只是执行指令的工具，而是有价值观的实体
引入”corrigibility slider”（可矫正性刻度）概念，解释为何 Claude 当前更倾向服从

行业意义

这是 AI 公司迄今最透明的对齐文件之一。将价值观决策过程公开，既是问责机制，也是行业标准的设定——其他公司的类似文件几乎都是内部保密的。

标签：

中国两会：「AI 加」行动扩围，AI 产业规模 2030 年超 10 万亿元

研究人员攻破麦肯锡 AI 平台：暴露 LLM 系统的系统性安全漏洞