Skip to content
星际流动

ThinkJEPA:VLM 引导的潜在世界建模双时间路径架构

发布
采集
学术前沿 6.7 分 — 双路径架构设计有启发性,将 VLM 推理能力注入世界模型预测是新颖思路
原文: arXiv

评分 6.7 · 来源:arXiv · 发布于 2026-03-23

评分依据:双路径架构设计有启发性,将 VLM 推理能力注入世界模型预测是新颖思路

要点

ThinkJEPA 提出一种双时间路径的世界建模架构:一条路径是传统的密集 JEPA(Joint-Embedding Predictive Architecture)分支,负责像素级的潜在空间预测;另一条路径引入 VLM(视觉语言模型)作为「思考者」,利用其语义推理能力进行高层规划和场景理解。两条路径并行运行、互补增强,使模型既能预测低层视觉细节,又能理解高层因果关系,显著提升长时域世界建模的表现。

🤖 AI 点评

Yann LeCun 的 JEPA 架构一直被视为通向世界模型的关键路径,但纯潜在预测模型在长程推理上表现不佳。ThinkJEPA 的巧妙之处在于承认一个现实:VLM 已经「懂」很多关于世界运行的常识(物理规律、因果关系、物体交互),与其让世界模型从头学起,不如直接借用 VLM 的推理能力作为高层引导。这种「快思考 + 慢思考」的双路径设计可能成为世界模型架构的一个新范式。


标签: