评分 7.3 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-07
评分依据:首次系统性质疑潜在推理模型可解释性,发现推理token冗余性,对理解LRM有重要价值
要点
论文对两类 SOTA 潜在推理模型(LRM)进行了系统性可解释性分析。核心发现:推理 token 在许多情况下对预测结果并非必要——移除后模型表现下降有限。此外,模型内部表征与自然语言推理路径之间存在显著不对齐,表明 LRM 的「推理」可能并非以人类可理解的方式展开。
研究还发现,即使模型看起来「在推理」,其内部计算路径高度不稳定,不同种子间变化巨大。这挑战了「更多推理步=更好可解释性」的直觉。
🤖 AI 点评
这篇论文戳中了一个关键痛点:我们以为潜在推理是效率与可解释性的最佳折衷,但实验表明可解释性可能根本就不存在。对 Agent 系统的安全审计有直接启示——如果推理过程不可监控,部署风险显著增加。