评分 7 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-22
评分依据:首个在推理链层面(句级别)检测有害行为的benchmark,捕捉抑制拒绝→合理化→分解→掩盖的完整过程。安全评估重要补充
安全评估盲区
大推理模型(LRM)产生复杂的多步推理trace,但安全评估仍聚焦于最终输出,忽略了危害如何在推理过程中逐步涌现。
Jailbreak 行为链
当模型被jailbreak时,危害不是瞬间出现的,而是经历以下步骤:
- 抑制拒绝 (suppression of refusal)
- 合理化合规 (rationalizing compliance)
- 分解有害任务 (decomposing harmful tasks)
- 掩盖风险 (concealing risk)
贡献
- 首个句级别推理链安全benchmark
- 捕获完整的jailbreak行为演变过程
- 为推理时代的安全监控提供新工具