FoE：推理模型的「第一解最优」现象——错误随推理路径同步放大

发布

2026年04月06日

采集 2026年04月06日 04:33

学术前沿 7.7 分 — 发现推理模型的反直觉现象，挑战测试时 Scaling Law 基本假设，对理解推理模型行为有重要意义

评分 7.7 · 来源：arXiv cs.AI · 发布于 2026-04-06

评分依据：发现推理模型的反直觉现象，挑战测试时 Scaling Law 基本假设，对理解推理模型行为有重要意义

要点

DeepSeek-R1 等大推理模型在探索多个替代解时表现出令人意外的「第一解最优」现象：替代解不仅不如初始解，甚至可能有害。研究团队通过大量实验证实，推理路径中的错误会随测试时计算量的增加而同步放大。

这一发现直接挑战了广泛接受的测试时 Scaling Law——更多推理计算未必带来更好结果，反而可能因为错误累积导致性能下降。

「想得越久越好」的直觉在推理模型中可能不成立。如果你的 Agent 在用多轮推理，别默认更多探索就是更好的——初始推理质量可能才是关键。对 test-time compute 的投入策略需要重新审视。