Path-Constrained MoE：稀疏 MoE 的专家路径约束优化

发布

2026年04月07日

采集 2026年04月08日 04:31

学术前沿 6.8 分 — 对MoE内部工作机制的新视角分析，路径约束优化有实用价值但受众偏窄

评分 6.8 · 来源：cs.LG updates on arXiv.org · 发布于 2026-04-07

评分依据：对MoE内部工作机制的新视角分析，路径约束优化有实用价值但受众偏窄

要点

稀疏 MoE 架构中每个 token 在每层独立选择专家。本文从「专家路径」视角重新审视：N 个专家跨 L 层有 N^L 条可能路径，但实践中 token 只聚集在极少数路径上，且这些路径与语言功能对齐。绝大多数路径从未被探索，代表统计效率损失。

作者提出路径约束优化方法，引导 token 使用更有意义的路径组合，提升模型效率。

MoE 是当前大模型架构的主流选择，但我们对路由机制的理解还很浅。这篇论文的路径视角提供了一个新的分析工具，路径约束的优化思路也值得关注。