Chain-of-Steps：揭示视频生成模型的推理机制

评分 8.05 · 来源：arXiv · 发布于 2026-03-17

评分依据：揭示扩散模型推理机制的新发现，实验支撑充分，对视频生成研究有指导意义

要点

论文揭示视频生成模型中的推理并非沿帧序列发生（Chain-of-Frames），而是沿扩散去噪步骤展开（Chain-of-Steps）。模型在早期去噪步骤探索多个候选解，逐步收敛到最终答案。

研究识别出多种涌现行为：工作记忆、自我纠错、先感知后行动。还发现 Diffusion Transformer 内部的功能分工——早期层编码感知结构，中间层执行推理，后期层巩固表征。

这是认知刷新级别的发现。之前大家以为视频推理是”第 1 帧想清楚，后面帧照着做”，实际上是”每一步去噪都在重新思考整个视频”。这解释了为什么扩散模型需要那么多步——不是在”画”，是在”想”。对优化采样策略和设计更高效的架构有直接指导意义。