Skip to content
星际流动
模型动态
工程实践
学术前沿
行业动态
深度观点
算力硬件
政策伦理
文章库
模型动态
工程实践
学术前沿
行业动态
深度观点
算力硬件
政策伦理
文章库
首页
/
标签
/
泛化失败
Tag:
泛化失败
All the articles with the tag "泛化失败".
7.3
RL 对齐的泛化极限:组合式越狱攻破 gpt-oss-20b 的安全防线
2026年04月06日
·
arXiv cs.AI
· 04/06 12:33 采集
提出「组合式越狱」攻击策略,通过组合多个单独可防御的攻击技术,利用对齐泛化失败实现突破,揭示 RL 对齐的结构性弱点。