Tag: 越狱
All the articles with the tag "越狱".
- 7.7
理解安全对齐移除:越狱微调和权重正交化如何瓦解 LLM 安全护栏
首次系统分析越狱微调和权重正交化两种安全移除方法的影响范围,发现安全退化不仅限于拒绝有害请求,还会影响模型整体的推理质量。
- 7.3
RL 对齐的泛化极限:组合式越狱攻破 gpt-oss-20b 的安全防线
提出「组合式越狱」攻击策略,通过组合多个单独可防御的攻击技术,利用对齐泛化失败实现突破,揭示 RL 对齐的结构性弱点。
All the articles with the tag "越狱".
首次系统分析越狱微调和权重正交化两种安全移除方法的影响范围,发现安全退化不仅限于拒绝有害请求,还会影响模型整体的推理质量。
提出「组合式越狱」攻击策略,通过组合多个单独可防御的攻击技术,利用对齐泛化失败实现突破,揭示 RL 对齐的结构性弱点。