Skip to content
星际流动

Marco-MoE: Open Multilingual Mixture-of-Expert Language Models with Efficient Upcycling

发布
采集
模型动态 5.0 分 — 开源多语言稀疏 MoE(~5%激活),高效 upcycling 达到 SOTA
原文: arXiv cs.CL

评分 5 · 来源:arXiv cs.CL · 发布于 2026-04-29

评分依据:开源多语言稀疏 MoE(~5%激活),高效 upcycling 达到 SOTA

Marco-MoE 是完全开源的多语言稀疏 MoE 模型套件,极高稀疏度(~5% 参数激活/token),结合 dense 模型 upcycling 实现在 5T token 上的高效预训练,在同等规模竞品上达到英和多语 SOTA。


标签: