Anthropic 内部文档泄露：最强新模型全面碾压 Opus 4.6，但因安全风险暂不发布

评分 7.7 · 来源：36氪 · 发布于 2026-03-27

评分依据：近 3000 份内部文档首次批量泄露，包含未发布旗舰模型的能力评估和安全隐患分析，信息密度极高

要点

Anthropic 内容管理系统出现配置错误，导致约 3000 份未发布的内部研究文档对公众可访问。泄露文档显示 Anthropic 正在测试一款远超当前最强模型 Claude Opus 4.6 的新旗舰模型。

该模型在推理、代码生成、安全评估等多项基准测试中全面领先，但 Anthropic 内部评估指出其「发现漏洞、攻击漏洞的能力过强」，认为在缺乏足够安全防护之前不宜公开发布。这一决策展现了 Anthropic 在能力与安全之间的审慎平衡。

泄露事件本身也引发了对 AI 公司内部文档管理安全性的讨论——这类配置失误可能成为未来泄露敏感技术信息的常见路径。

从「不敢发布」这个决策可以看出，Anthropic 在安全对齐上确实有实质性投入，而非仅停留在公关层面。但讽刺的是，这种审慎恰恰因为一次安全疏忽而被曝光。随着模型能力越来越强，「发布了不安全」和「太安全而不发布」之间的张力只会越来越大。