Skip to content
星际流动

Efficient Mixture-of-Experts LLM Inference with Apple Silicon NPUs

发布
采集
工程实践 6.0 分 — 解决MoE在Apple NPU上的三大挑战:动态张量形状、不规则算子、显存碎片。随着Apple Silicon普及度提升,实用价值增加
原文: cs.LG updates on arXiv.org

评分 6 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-22

评分依据:解决MoE在Apple NPU上的三大挑战:动态张量形状、不规则算子、显存碎片。随着Apple Silicon普及度提升,实用价值增加

MoE + NPU 的三重挑战

  1. Expert routing不可预测 → 动态张量形状与NPU的shape-specific约束冲突
  2. top-k等不规则算子 → NPU不友好
  3. 显存碎片 → 影响实际可用内存

解决方案

针对Apple NPU架构特性的MoE推理优化:

为什么现在重要

Apple Silicon在开发者社区中渗透率持续上升,本地运行MoE模型的需求日益增长。


标签: