Skip to content
星际流动

An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models

发布
采集
学术前沿 6.0 分 — 真实条件下的输出型jailbreak检测实证研究,对比TF-IDF和生成不一致性两种检测器
原文: cs.CL updates on arXiv.org

评分 6 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-22

评分依据:真实条件下的输出型jailbreak检测实证研究,对比TF-IDF和生成不一致性两种检测器

研究动机

强对齐模型仅在极少数情况下产生有害输出,使得jailbreak检测极具挑战性。

实验设置

核心发现

在真实(非构造性)条件下,两种检测器的检测能力和适用场景有显著差异,为生产环境jailbreak检测方案选择提供实证依据。


标签: