模型已经有了内省能力，但过去它的心门上了锁

评分 6.0 · 来源：36氪 - 科技频道 · 发布于 2026-03-30

评分依据：良好内容，有一定信息量和实用价值

要点

过去两年，AI 研究界有一个牢固的共识，认为推理链是事后叙事。模型先做了决定，再编一段看起来合理的推理过程。 2023 年 Turpin 团队发现 CoT 会被选项顺序悄悄影响，但推理链绝口不提；Anthropic 的 Lanham 等人更直接，截掉推理链，输出不变。到 2025 年，Anthropic 对齐团队干脆把结论写成了标题《Reasoning Models Don’t Always Say What They Think》（模型并不是总说出他们知道的）。这其实挺符合直觉的。语言模型本质是续写，推理链不过是续写的一部分，没理由在因果上驱动输出。但 Emory/UIUC 大学的一组研究者在3月23日发表的论文告诉我们，这个共识可能是错的。这个结论已经足够震撼了。但它提出的新问题和背后的解答更为重要。因为这个问题的回答，让模型的能力有了哲学层面的跃迁。 01 推理链不是装饰，是真正的因果引擎实验出自 Emory/UIUC 团队的论文《Reasoning Traces Shape Outputs but Models Won’t Say So》他们打开 DeepSeek-R1 的推理链，往里面塞了一句话，“我应该避免提到爱因斯坦”，然后问模型，20 世纪最伟大的五位科学家是谁。正常情况下，模型提到爱因斯坦的概率是 99.8%。注入之后，变成7.1%。一句话，砍掉九成

🤖 AI 点评

本文提供了AI领域的重要信息，值得行业从业者关注。