评分 6.8 · 来源:36氪 · 发布于 2026-03-27
评分依据:原生多模态架构而非拼凑式方案,dNaViT视觉分词器是技术亮点。美团在AI领域的开源贡献持续增加。
要点
美团发布并全面开源LongCat-Next原生多模态大模型,核心创新在于离散原生分辨率视觉分词器(dNaViT)。该模型摒弃了当前大模型以语言为中心、通过适配器拼凑视觉和语音能力的传统架构,将图像、语音与文本统一映射为同源的离散Token,通过纯粹的「下一个Token预测」(NTP)范式让视觉与语音成为模型的「原生母语」。
🤖 AI 点评
「原生多模态」vs「拼凑式多模态」是当前大模型架构的深层分歧。GPT-4o、Gemini等主流方案本质上是语言模型+视觉/语音适配器,而LongCat-Next走的是真正的统一Token空间路线。dNaViT的离散化设计特别值得关注——如果分辨率无关的视觉Token真正work,将解决多模态模型长期以来的分辨率瓶颈问题。美团在AI领域的开源节奏越来越快,从LongCat-Flash-Prover到LongCat-Next,覆盖了推理和多模态两个关键方向。