Skip to content
星际流动

揭秘视频生成模型的推理机制:Chain-of-Steps 而非 Chain-of-Frames

发布
采集
学术前沿 7.4 分 — 挑战现有假设,提出新的推理机制解释,有实验支撑
原文: arXiv

评分 7.4 · 来源:arXiv · 发布于 2026-03-19

评分依据:挑战现有假设,提出新的推理机制解释,有实验支撑

要点

研究挑战了视频生成模型推理的主流假设。此前认为推理沿帧序列展开(Chain-of-Frames),但本文通过定性分析和探测实验发现:推理主要发生在扩散去噪步骤中(Chain-of-Steps)。模型在早期去噪步骤探索多个候选解,逐步收敛到最终答案。

研究识别出三种关键的涌现推理行为:(1) 工作记忆——持久引用能力;(2) 自我纠错与增强——从错误中间解恢复;(3) 感知先于行动——早期步骤建立语义基础,后期步骤执行结构化操作。

在 Diffusion Transformer 内部,发现了自演化的功能专业化:早期层编码密集感知结构,中间层执行推理,后期层整合潜在表示。基于这些洞察,提出训练无关策略:集成相同模型不同随机种子的潜在轨迹来改进推理。

🤖 AI 点评

这项工作重新定义了我们对视频生成模型”智能”的理解。如果推理确实发生在去噪步骤而非帧序列,那意味着扩散过程本身就是一个迭代求解器——这与 o1 系列的 CoT 推理有异曲同工之妙,只是介质从 token 变成了去噪步骤。这为”生成即推理”提供了新的理论支撑。


标签: