When Safety Fails Before the Answer: Benchmarking Harmful Behavior Detection in Reasoning Chains

发布

2026年04月22日

采集 2026年04月22日 06:31

学术前沿 7.0 分 — 首个在推理链层面（句级别）检测有害行为的benchmark，捕捉抑制拒绝→合理化→分解→掩盖的完整过程。安全评估重要补充

评分 7 · 来源：cs.CL updates on arXiv.org · 发布于 2026-04-22

评分依据：首个在推理链层面（句级别）检测有害行为的benchmark，捕捉抑制拒绝→合理化→分解→掩盖的完整过程。安全评估重要补充

安全评估盲区

大推理模型(LRM)产生复杂的多步推理trace，但安全评估仍聚焦于最终输出，忽略了危害如何在推理过程中逐步涌现。

当模型被jailbreak时，危害不是瞬间出现的，而是经历以下步骤：