Cross-Lingual Jailbreak Detection via Semantic Codebooks

发布

2026年04月29日

采集 2026年04月29日 06:31

学术前沿 4.5 分 — 语义码本跨语言越狱检测，无需重训练缓解多语言安全漏洞

原文： arXiv cs.CL

评分 4.5 · 来源：arXiv cs.CL · 发布于 2026-04-29

评分依据：语义码本跨语言越狱检测，无需重训练缓解多语言安全漏洞

LLM 安全机制 predominantly English-centric，创建系统性多语言部署漏洞。翻译恶意提示词可大幅提高越狱成功率。本文研究是否可通过语言无关语义相似性缓解此类攻击。

标签：

Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware LLMs

LongSumEval: Question-Answering Based Evaluation and Feedback-Driven Refinement for Long Document Summarization