Tree Search Distillation：用 PPO 让语言模型学会「先搜后答」

2026年03月15日

一篇在 Hacker News 上获得广泛讨论的技术文章，探讨如何将树搜索（Tree Search）能力通过 PPO 蒸馏进语言模型，使其在推理时无需外部搜索系统。

核心思路：MCTS 等树搜索算法能有效探索解空间，但推理时成本高昂。通过 PPO 训练，让模型「内化」搜索过程，把多步探索压缩为单次前向传播中的隐式推理。

方法亮点：

这与 OpenAI o1/o3 和 DeepSeek R1 的方向一脉相承，但提供了更轻量的实现路径。