揭秘视频生成模型的推理机制：Chain-of-Steps 而非 Chain-of-Frames

评分 7.4 · 来源：arXiv · 发布于 2026-03-19

评分依据：挑战现有假设，提出新的推理机制解释，有实验支撑

要点

研究挑战了视频生成模型推理的主流假设。此前认为推理沿帧序列展开（Chain-of-Frames），但本文通过定性分析和探测实验发现：推理主要发生在扩散去噪步骤中（Chain-of-Steps）。模型在早期去噪步骤探索多个候选解，逐步收敛到最终答案。

研究识别出三种关键的涌现推理行为：(1) 工作记忆——持久引用能力；(2) 自我纠错与增强——从错误中间解恢复；(3) 感知先于行动——早期步骤建立语义基础，后期步骤执行结构化操作。

在 Diffusion Transformer 内部，发现了自演化的功能专业化：早期层编码密集感知结构，中间层执行推理，后期层整合潜在表示。基于这些洞察，提出训练无关策略：集成相同模型不同随机种子的潜在轨迹来改进推理。

这项工作重新定义了我们对视频生成模型”智能”的理解。如果推理确实发生在去噪步骤而非帧序列，那意味着扩散过程本身就是一个迭代求解器——这与 o1 系列的 CoT 推理有异曲同工之妙，只是介质从 token 变成了去噪步骤。这为”生成即推理”提供了新的理论支撑。