评分 7.7 · 来源:Nature Communications · 发布于 2026-03-22
评分依据:Nature 顶刊论文,从理论上证明对齐的局部性,并用语义连贯性诱导方法绕过安全约束
要点
这篇由 Lian 等人撰写、发表于 Nature Communications 的论文,从理论层面揭示了当前大语言模型对齐方法的一个根本性局限:对齐训练只会在模型的知识流形中创建局部「安全区域」,而非全局性的安全屏障。
论文首先通过形式化证明,展示了对齐方法(如 RLHF)产生的安全约束本质上是局部的——在知识流形中,这些约束只覆盖了有限的子空间,而大量全局对抗路径仍然畅通无阻。
基于这一理论洞察,作者提出了一种名为「语义连贯性诱导」(Semantic Coherence Inducement)的方法。与需要 token 级扰动的传统攻击不同,该方法利用预训练潜空间中的语义连贯性,生成完全自然的语言对抗提示,系统性地绕过对齐约束。实验在多个主流模型上验证了该方法的有效性。
🤖 AI 点评
这篇论文的价值在于它从数学上回答了一个长期悬而未决的问题:「对齐到底是修好了问题,还是只是把问题藏起来了?」答案倾向于后者——对齐更像是在知识空间中画了几个安全岛,而非建了一道安全墙。对于 AI 安全从业者而言,这意味着当前的「安全测试通过」可能给出的是虚假的安全感:模型在标准红队测试中表现良好,但仍有大量自然语言路径可以触发不安全输出。这也暗示,单纯依赖对后训练阶段的修补,可能永远无法实现真正鲁棒的安全性。