美团开源LongCat-Next：原生多模态架构统一图像、语音与文本Token

评分 6.8 · 来源：36氪 · 发布于 2026-03-27

评分依据：原生多模态架构而非拼凑式方案，dNaViT视觉分词器是技术亮点。美团在AI领域的开源贡献持续增加。

要点

美团发布并全面开源LongCat-Next原生多模态大模型，核心创新在于离散原生分辨率视觉分词器（dNaViT）。该模型摒弃了当前大模型以语言为中心、通过适配器拼凑视觉和语音能力的传统架构，将图像、语音与文本统一映射为同源的离散Token，通过纯粹的「下一个Token预测」（NTP）范式让视觉与语音成为模型的「原生母语」。

🤖 AI 点评

「原生多模态」vs「拼凑式多模态」是当前大模型架构的深层分歧。GPT-4o、Gemini等主流方案本质上是语言模型+视觉/语音适配器，而LongCat-Next走的是真正的统一Token空间路线。dNaViT的离散化设计特别值得关注——如果分辨率无关的视觉Token真正work，将解决多模态模型长期以来的分辨率瓶颈问题。美团在AI领域的开源节奏越来越快，从LongCat-Flash-Prover到LongCat-Next，覆盖了推理和多模态两个关键方向。