评分 5 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:开源多语言稀疏 MoE(~5%激活),高效 upcycling 达到 SOTA
Marco-MoE 是完全开源的多语言稀疏 MoE 模型套件,极高稀疏度(~5% 参数激活/token),结合 dense 模型 upcycling 实现在 5T token 上的高效预训练,在同等规模竞品上达到英和多语 SOTA。
评分 5 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:开源多语言稀疏 MoE(~5%激活),高效 upcycling 达到 SOTA
Marco-MoE 是完全开源的多语言稀疏 MoE 模型套件,极高稀疏度(~5% 参数激活/token),结合 dense 模型 upcycling 实现在 5T token 上的高效预训练,在同等规模竞品上达到英和多语 SOTA。