An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models

发布

2026年04月22日

采集 2026年04月22日 06:31

学术前沿 6.0 分 — 真实条件下的输出型jailbreak检测实证研究，对比TF-IDF和生成不一致性两种检测器

评分 6 · 来源：cs.CL updates on arXiv.org · 发布于 2026-04-22

评分依据：真实条件下的输出型jailbreak检测实证研究，对比TF-IDF和生成不一致性两种检测器

研究动机

强对齐模型仅在极少数情况下产生有害输出，使得jailbreak检测极具挑战性。

在真实（非构造性）条件下，两种检测器的检测能力和适用场景有显著差异，为生产环境jailbreak检测方案选择提供实证依据。