Image Generators are Generalist Vision Learners

发布

2026年04月23日

采集 2026年04月23日 06:32

学术前沿 7.3 分 — 提供图像生成模型具备强视觉理解能力的系统性证据，挑战生成-理解二分法假设。对统一视觉模型范式有重要启发。

评分 7.3 · 来源：arXiv cs.AI · 发布于 2026-04-23

评分依据：提供图像生成模型具备强视觉理解能力的系统性证据，挑战生成-理解二分法假设。对统一视觉模型范式有重要启发。

近期研究表明图像和视频生成器展现出零样本视觉理解行为，类似于LLM如何从生成式预训练中发展出语言理解和推理的涌现能力。虽然长期以来人们推测创造视觉内容的能力意味着理解它的能力，但生成式视觉模型已发展出强大理解能力的证据仍然有限。

核心发现：

意义：