评分 6 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-22
评分依据:解决MoE在Apple NPU上的三大挑战:动态张量形状、不规则算子、显存碎片。随着Apple Silicon普及度提升,实用价值增加
MoE + NPU 的三重挑战
- Expert routing不可预测 → 动态张量形状与NPU的shape-specific约束冲突
- top-k等不规则算子 → NPU不友好
- 显存碎片 → 影响实际可用内存
解决方案
针对Apple NPU架构特性的MoE推理优化:
- 处理动态路由的shape约束
- 替换/优化不规则算子
- 管理expert显存布局
为什么现在重要
Apple Silicon在开发者社区中渗透率持续上升,本地运行MoE模型的需求日益增长。