评分 7.3 · 来源:arXiv cs.AI · 发布于 2026-04-06
评分依据:组合式越狱策略揭示对齐的泛化极限,理论分析配合实际攻击演示,对理解对齐鲁棒性有实质贡献
要点
理论分析表明,基于 RL 的训练只是重新分配现有能力的概率,而非获得新能力。基于此,研究提出「组合式越狱」——将多种单独可防御的攻击技术组合,每种都不足以单独突破防线,但组合后利用对齐的泛化失败实现突破。
实验针对 gpt-oss-20b 进行,证明了对齐训练存在结构性弱点:模型学会了拒绝特定模式的攻击,但面对新颖的组合攻击时防线脆弱。
🤖 AI 点评
安全不是一个个独立威胁的加法。当攻击者开始「组合拳」,单独训练的防御就可能失效。这对 AI 安全团队的设计思路有启发:从对抗单一攻击转向评估组合攻击面的鲁棒性。