评分 4.5 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:语义码本跨语言越狱检测,无需重训练缓解多语言安全漏洞
LLM 安全机制 predominantly English-centric,创建系统性多语言部署漏洞。翻译恶意提示词可大幅提高越狱成功率。本文研究是否可通过语言无关语义相似性缓解此类攻击。
评分 4.5 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:语义码本跨语言越狱检测,无需重训练缓解多语言安全漏洞
LLM 安全机制 predominantly English-centric,创建系统性多语言部署漏洞。翻译恶意提示词可大幅提高越狱成功率。本文研究是否可通过语言无关语义相似性缓解此类攻击。