Marco-MoE: Open Multilingual Mixture-of-Expert Language Models with Efficient Upcycling

发布

2026年04月29日

采集 2026年04月29日 06:31

模型动态 5.0 分 — 开源多语言稀疏 MoE（~5%激活），高效 upcycling 达到 SOTA

评分 5 · 来源：arXiv cs.CL · 发布于 2026-04-29

评分依据：开源多语言稀疏 MoE（~5%激活），高效 upcycling 达到 SOTA

Marco-MoE 是完全开源的多语言稀疏 MoE 模型套件，极高稀疏度（~5% 参数激活/token），结合 dense 模型 upcycling 实现在 5T token 上的高效预训练，在同等规模竞品上达到英和多语 SOTA。

标签：