Efficient Mixture-of-Experts LLM Inference with Apple Silicon NPUs

发布

2026年04月22日

采集 2026年04月22日 06:31

工程实践 6.0 分 — 解决MoE在Apple NPU上的三大挑战：动态张量形状、不规则算子、显存碎片。随着Apple Silicon普及度提升，实用价值增加

评分 6 · 来源：cs.LG updates on arXiv.org · 发布于 2026-04-22

评分依据：解决MoE在Apple NPU上的三大挑战：动态张量形状、不规则算子、显存碎片。随着Apple Silicon普及度提升，实用价值增加

MoE + NPU 的三重挑战

针对Apple NPU架构特性的MoE推理优化：

Apple Silicon在开发者社区中渗透率持续上升，本地运行MoE模型的需求日益增长。