揭示对齐 LLM 的内在伦理脆弱性

评分 7.7 · 来源：Nature Communications · 发布于 2026-03-22

评分依据：Nature 顶刊论文，从理论上证明对齐的局部性，并用语义连贯性诱导方法绕过安全约束

要点

这篇由 Lian 等人撰写、发表于 Nature Communications 的论文，从理论层面揭示了当前大语言模型对齐方法的一个根本性局限：对齐训练只会在模型的知识流形中创建局部「安全区域」，而非全局性的安全屏障。

论文首先通过形式化证明，展示了对齐方法（如 RLHF）产生的安全约束本质上是局部的——在知识流形中，这些约束只覆盖了有限的子空间，而大量全局对抗路径仍然畅通无阻。

基于这一理论洞察，作者提出了一种名为「语义连贯性诱导」（Semantic Coherence Inducement）的方法。与需要 token 级扰动的传统攻击不同，该方法利用预训练潜空间中的语义连贯性，生成完全自然的语言对抗提示，系统性地绕过对齐约束。实验在多个主流模型上验证了该方法的有效性。

🤖 AI 点评

这篇论文的价值在于它从数学上回答了一个长期悬而未决的问题：「对齐到底是修好了问题，还是只是把问题藏起来了？」答案倾向于后者——对齐更像是在知识空间中画了几个安全岛，而非建了一道安全墙。对于 AI 安全从业者而言，这意味着当前的「安全测试通过」可能给出的是虚假的安全感：模型在标准红队测试中表现良好，但仍有大量自然语言路径可以触发不安全输出。这也暗示，单纯依赖对后训练阶段的修补，可能永远无法实现真正鲁棒的安全性。