Skip to content
星际流动

Cross-Lingual Jailbreak Detection via Semantic Codebooks

发布
采集
学术前沿 4.5 分 — 语义码本跨语言越狱检测,无需重训练缓解多语言安全漏洞
原文: arXiv cs.CL

评分 4.5 · 来源:arXiv cs.CL · 发布于 2026-04-29

评分依据:语义码本跨语言越狱检测,无需重训练缓解多语言安全漏洞

LLM 安全机制 predominantly English-centric,创建系统性多语言部署漏洞。翻译恶意提示词可大幅提高越狱成功率。本文研究是否可通过语言无关语义相似性缓解此类攻击。


标签: