理解安全对齐移除：越狱微调和权重正交化如何瓦解 LLM 安全护栏

发布

2026年04月06日

采集 2026年04月06日 04:33

政策伦理 7.7 分 — 首次系统分析两种安全移除方法的全面影响，发现安全退化会波及推理质量，对理解对齐鲁棒性有重要价值

评分 7.7 · 来源：arXiv cs.AI · 发布于 2026-04-06

评分依据：首次系统分析两种安全移除方法的全面影响，发现安全退化会波及推理质量，对理解对齐鲁棒性有重要价值

要点

越狱微调和权重正交化是两种已知的 LLM 安全护栏移除方法，但此前的研究主要关注拒绝率变化。本研究首次系统分析了这两种方法对模型能力的全面影响，发现安全退化的效果远不止于「不再拒绝有害请求」——模型的推理质量、事实准确性等通用能力也会受到波及。

这意味着安全对齐不是可以简单开关的功能，而是与模型的推理能力深度耦合。移除安全护栏的代价可能比预想的更大。

这项研究给了「对齐税」一个新的视角：安全对齐不只是让模型说不，还在模型能力中扮演着结构性的角色。对想通过去对齐来「释放模型全部能力」的人来说，这是一个清醒的提醒。