Skip to content
星际流动

RL 对齐的泛化极限:组合式越狱攻破 gpt-oss-20b 的安全防线

发布
采集
政策伦理 7.3 分 — 组合式越狱策略揭示对齐的泛化极限,理论分析配合实际攻击演示,对理解对齐鲁棒性有实质贡献
原文: arXiv cs.AI

评分 7.3 · 来源:arXiv cs.AI · 发布于 2026-04-06

评分依据:组合式越狱策略揭示对齐的泛化极限,理论分析配合实际攻击演示,对理解对齐鲁棒性有实质贡献

要点

理论分析表明,基于 RL 的训练只是重新分配现有能力的概率,而非获得新能力。基于此,研究提出「组合式越狱」——将多种单独可防御的攻击技术组合,每种都不足以单独突破防线,但组合后利用对齐的泛化失败实现突破。

实验针对 gpt-oss-20b 进行,证明了对齐训练存在结构性弱点:模型学会了拒绝特定模式的攻击,但面对新颖的组合攻击时防线脆弱。

🤖 AI 点评

安全不是一个个独立威胁的加法。当攻击者开始「组合拳」,单独训练的防御就可能失效。这对 AI 安全团队的设计思路有启发:从对抗单一攻击转向评估组合攻击面的鲁棒性。


标签: