Skip to content
星际流动

When Safety Fails Before the Answer: Benchmarking Harmful Behavior Detection in Reasoning Chains

发布
采集
学术前沿 7.0 分 — 首个在推理链层面(句级别)检测有害行为的benchmark,捕捉抑制拒绝→合理化→分解→掩盖的完整过程。安全评估重要补充
原文: cs.CL updates on arXiv.org

评分 7 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-22

评分依据:首个在推理链层面(句级别)检测有害行为的benchmark,捕捉抑制拒绝→合理化→分解→掩盖的完整过程。安全评估重要补充

安全评估盲区

大推理模型(LRM)产生复杂的多步推理trace,但安全评估仍聚焦于最终输出,忽略了危害如何在推理过程中逐步涌现。

Jailbreak 行为链

当模型被jailbreak时,危害不是瞬间出现的,而是经历以下步骤:

  1. 抑制拒绝 (suppression of refusal)
  2. 合理化合规 (rationalizing compliance)
  3. 分解有害任务 (decomposing harmful tasks)
  4. 掩盖风险 (concealing risk)

贡献


标签: