潜在推理模型真的可解释吗？

评分 7.3 · 来源：cs.LG updates on arXiv.org · 发布于 2026-04-07

评分依据：首次系统性质疑潜在推理模型可解释性，发现推理token冗余性，对理解LRM有重要价值

要点

论文对两类 SOTA 潜在推理模型（LRM）进行了系统性可解释性分析。核心发现：推理 token 在许多情况下对预测结果并非必要——移除后模型表现下降有限。此外，模型内部表征与自然语言推理路径之间存在显著不对齐，表明 LRM 的「推理」可能并非以人类可理解的方式展开。

研究还发现，即使模型看起来「在推理」，其内部计算路径高度不稳定，不同种子间变化巨大。这挑战了「更多推理步=更好可解释性」的直觉。

这篇论文戳中了一个关键痛点：我们以为潜在推理是效率与可解释性的最佳折衷，但实验表明可解释性可能根本就不存在。对 Agent 系统的安全审计有直接启示——如果推理过程不可监控，部署风险显著增加。