Skip to content
星际流动

理解安全对齐移除:越狱微调和权重正交化如何瓦解 LLM 安全护栏

发布
采集
政策伦理 7.7 分 — 首次系统分析两种安全移除方法的全面影响,发现安全退化会波及推理质量,对理解对齐鲁棒性有重要价值
原文: arXiv cs.AI

评分 7.7 · 来源:arXiv cs.AI · 发布于 2026-04-06

评分依据:首次系统分析两种安全移除方法的全面影响,发现安全退化会波及推理质量,对理解对齐鲁棒性有重要价值

要点

越狱微调和权重正交化是两种已知的 LLM 安全护栏移除方法,但此前的研究主要关注拒绝率变化。本研究首次系统分析了这两种方法对模型能力的全面影响,发现安全退化的效果远不止于「不再拒绝有害请求」——模型的推理质量、事实准确性等通用能力也会受到波及。

这意味着安全对齐不是可以简单开关的功能,而是与模型的推理能力深度耦合。移除安全护栏的代价可能比预想的更大。

🤖 AI 点评

这项研究给了「对齐税」一个新的视角:安全对齐不只是让模型说不,还在模型能力中扮演着结构性的角色。对想通过去对齐来「释放模型全部能力」的人来说,这是一个清醒的提醒。


标签: