RL 对齐的泛化极限：组合式越狱攻破 gpt-oss-20b 的安全防线

发布

2026年04月06日

采集 2026年04月06日 04:33

政策伦理 7.3 分 — 组合式越狱策略揭示对齐的泛化极限，理论分析配合实际攻击演示，对理解对齐鲁棒性有实质贡献

评分 7.3 · 来源：arXiv cs.AI · 发布于 2026-04-06

评分依据：组合式越狱策略揭示对齐的泛化极限，理论分析配合实际攻击演示，对理解对齐鲁棒性有实质贡献

要点

理论分析表明，基于 RL 的训练只是重新分配现有能力的概率，而非获得新能力。基于此，研究提出「组合式越狱」——将多种单独可防御的攻击技术组合，每种都不足以单独突破防线，但组合后利用对齐的泛化失败实现突破。

实验针对 gpt-oss-20b 进行，证明了对齐训练存在结构性弱点：模型学会了拒绝特定模式的攻击，但面对新颖的组合攻击时防线脆弱。

安全不是一个个独立威胁的加法。当攻击者开始「组合拳」，单独训练的防御就可能失效。这对 AI 安全团队的设计思路有启发：从对抗单一攻击转向评估组合攻击面的鲁棒性。