评分 7.7 · 来源:36氪 · 发布于 2026-03-27
评分依据:近 3000 份内部文档首次批量泄露,包含未发布旗舰模型的能力评估和安全隐患分析,信息密度极高
要点
Anthropic 内容管理系统出现配置错误,导致约 3000 份未发布的内部研究文档对公众可访问。泄露文档显示 Anthropic 正在测试一款远超当前最强模型 Claude Opus 4.6 的新旗舰模型。
该模型在推理、代码生成、安全评估等多项基准测试中全面领先,但 Anthropic 内部评估指出其「发现漏洞、攻击漏洞的能力过强」,认为在缺乏足够安全防护之前不宜公开发布。这一决策展现了 Anthropic 在能力与安全之间的审慎平衡。
泄露事件本身也引发了对 AI 公司内部文档管理安全性的讨论——这类配置失误可能成为未来泄露敏感技术信息的常见路径。
🤖 AI 点评
从「不敢发布」这个决策可以看出,Anthropic 在安全对齐上确实有实质性投入,而非仅停留在公关层面。但讽刺的是,这种审慎恰恰因为一次安全疏忽而被曝光。随着模型能力越来越强,「发布了不安全」和「太安全而不发布」之间的张力只会越来越大。