Skip to content
星际流动

美团开源LongCat-Next:原生多模态架构统一图像、语音与文本Token

发布
采集
模型动态 6.8 分 — 原生多模态架构而非拼凑式方案,dNaViT视觉分词器是技术亮点。美团在AI领域的开源贡献持续增加。
原文: 36氪

评分 6.8 · 来源:36氪 · 发布于 2026-03-27

评分依据:原生多模态架构而非拼凑式方案,dNaViT视觉分词器是技术亮点。美团在AI领域的开源贡献持续增加。

要点

美团发布并全面开源LongCat-Next原生多模态大模型,核心创新在于离散原生分辨率视觉分词器(dNaViT)。该模型摒弃了当前大模型以语言为中心、通过适配器拼凑视觉和语音能力的传统架构,将图像、语音与文本统一映射为同源的离散Token,通过纯粹的「下一个Token预测」(NTP)范式让视觉与语音成为模型的「原生母语」。

🤖 AI 点评

「原生多模态」vs「拼凑式多模态」是当前大模型架构的深层分歧。GPT-4o、Gemini等主流方案本质上是语言模型+视觉/语音适配器,而LongCat-Next走的是真正的统一Token空间路线。dNaViT的离散化设计特别值得关注——如果分辨率无关的视觉Token真正work,将解决多模态模型长期以来的分辨率瓶颈问题。美团在AI领域的开源节奏越来越快,从LongCat-Flash-Prover到LongCat-Next,覆盖了推理和多模态两个关键方向。


标签: