评分 6 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-22
评分依据:真实条件下的输出型jailbreak检测实证研究,对比TF-IDF和生成不一致性两种检测器
研究动机
强对齐模型仅在极少数情况下产生有害输出,使得jailbreak检测极具挑战性。
实验设置
- 使用JailbreakBench Behaviors数据集
- 多个不同对齐强度的生成器模型
- 两种检测器:TF-IDF词汇检测 vs 生成不一致性检测
核心发现
在真实(非构造性)条件下,两种检测器的检测能力和适用场景有显著差异,为生产环境jailbreak检测方案选择提供实证依据。