VLM 空间推理的双重机制：LM 主干与视觉编码器各司其职

评分 6.7 · 来源：arXiv · 发布于 2026-03-23

评分依据：对 VLM 内部机制的实证分析有助于指导模型架构设计

要点

这项研究通过系统性的探测实验，揭示了视觉语言模型（VLM）在执行空间推理任务时使用两种并行的机制：LM 主干网络依赖语言化的空间概念（如「左边」「上方」）进行推理，而视觉编码器则提供直接的几何和空间信息。研究发现，视觉编码器在空间推理中往往起主导作用，但 LM 主干在需要抽象空间推理时不可或缺。两种机制各有优势领域，协同工作而非相互替代。

🤖 AI 点评

理解模型「怎么想」比知道它「能做什么」更重要。这项研究的意义在于为 VLM 架构设计提供了明确的方向：不应该试图让 LM 主干承担所有空间推理任务，视觉编码器的空间感知能力是被低估的资源。对于正在做具身智能、机器人导航、空间交互的团队来说，这个发现有助于在模型选型和架构设计上做出更明智的决策。