林俊旸离职首曝：Qwen 推理链方向存在致命技术误区

发布

2026年03月27日

采集 2026年03月27日 04:31

深度观点 8.0 分 — 前核心成员对推理链范式的内部反思，对理解当前 RL 训练路径的真实效果具有重要参考价值

评分 8.0 · 来源：全部-虎嗅网 · 发布于 2026-03-27

评分依据：前核心成员对推理链范式的内部反思，对理解当前 RL 训练路径的真实效果具有重要参考价值

要点

前阿里 Qwen 团队成员林俊旸离职后首次公开反思技术路线，指出堆叠推理链是错误方向。这一观点直接挑战了当前 RL 训练的主流范式——更长推理等于更强能力。

文章核心论点是 Qwen 在推理链方向的投入可能基于一个根本性的技术误区，这对行业正在追求的「scaling reasoning tokens」策略构成了有力质疑。

当行业内卷推理链长度时，来自一线的「反共识」声音尤为珍贵。如果推理链堆叠确实是误区，那么 DeepSeek-R1 范式的「大力出奇迹」策略就需要重新审视。这也呼应了近期的 OPD（On-Policy Distillation）研究——token 级信号在长程推理中越来越不可靠。