评分 7.7 · 来源:arXiv cs.AI · 发布于 2026-04-06
评分依据:发现推理模型的反直觉现象,挑战测试时 Scaling Law 基本假设,对理解推理模型行为有重要意义
要点
DeepSeek-R1 等大推理模型在探索多个替代解时表现出令人意外的「第一解最优」现象:替代解不仅不如初始解,甚至可能有害。研究团队通过大量实验证实,推理路径中的错误会随测试时计算量的增加而同步放大。
这一发现直接挑战了广泛接受的测试时 Scaling Law——更多推理计算未必带来更好结果,反而可能因为错误累积导致性能下降。
🤖 AI 点评
「想得越久越好」的直觉在推理模型中可能不成立。如果你的 Agent 在用多轮推理,别默认更多探索就是更好的——初始推理质量可能才是关键。对 test-time compute 的投入策略需要重新审视。