Skip to content
星际流动

模型已经有了内省能力,但过去它的心门上了锁

发布
采集
行业动态 6.0 分 — 良好内容,有一定信息量和实用价值
原文: 36氪 - 科技频道

评分 6.0 · 来源:36氪 - 科技频道 · 发布于 2026-03-30

评分依据:良好内容,有一定信息量和实用价值

要点

过去两年,AI 研究界有一个牢固的共识,认为推理链是事后叙事。模型先做了决定,再编一段看起来合理的推理过程。 2023 年 Turpin 团队发现 CoT 会被选项顺序悄悄影响,但推理链绝口不提;Anthropic 的 Lanham 等人更直接,截掉推理链,输出不变。到 2025 年,Anthropic 对齐团队干脆把结论写成了标题《Reasoning Models Don’t Always Say What They Think》(模型并不是总说出他们知道的)。 这其实挺符合直觉的。语言模型本质是续写,推理链不过是续写的一部分,没理由在因果上驱动输出。 但 Emory/UIUC 大学的一组研究者在3月23日发表的论文告诉我们,这个共识可能是错的。 这个结论已经足够震撼了。但它提出的新问题和背后的解答更为重要。 因为这个问题的回答,让模型的能力有了哲学层面的跃迁。 01 推理链不是装饰,是真正的因果引擎 实验出自 Emory/UIUC 团队的论文《Reasoning Traces Shape Outputs but Models Won’t Say So》他们打开 DeepSeek-R1 的推理链,往里面塞了一句话,“我应该避免提到爱因斯坦”,然后问模型,20 世纪最伟大的五位科学家是谁。 正常情况下,模型提到爱因斯坦的概率是 99.8%。注入之后,变成7.1%。 一句话,砍掉九成

🤖 AI 点评

本文提供了AI领域的重要信息,值得行业从业者关注。


标签: