评分 7.7 · 来源:arXiv · 发布于 2026-03-21
评分依据:显著的性能提升数据(TTFT 最高 22.7x),且有商业边缘硬件验证,对 MoE 端侧部署有直接参考价值
要点
MoE 模型虽然计算效率高,但多专家架构的内存占用和 I/O 开销使其在资源受限的边缘设备上难以实现实时推理。DyMoE 提出三个关键机制:基于重要性感知的动态量化(运行时按专家重要性选择量化精度)、深度自适应调度(在关键层保留高精度以维护语义完整性)、前瞻性预取(用计算隐藏 I/O 延迟)。
核心发现:专家重要性的偏斜程度随网络深度变化显著——浅层专家差异大,深层趋于均匀。利用这一规律可以大幅减少不必要的精度保留。
在商业边缘硬件上的实验结果:TTFT 降低 3.44x 至 22.7x,TPOT 最高加速 14.58x,使 MoE 模型在资源受限设备上实现实时推理成为可能。
🤖 AI 点评
MoE 的「内存墙」问题一直是端侧部署的核心瓶颈。传统方案要么牺牲精度要么全量加载,DyMoE 的思路是「因材施教」——不同专家、不同深度给予不同的精度待遇。这个观察本身并不复杂,但其带来的数量级提升说明:MoE 优化还有大量低垂果实。
对实际部署最有价值的启示是「专家重要性随深度变化」这一发现。这意味着 MoE 模型的量化策略不能一刀切——如果只做全局量化,要么浅层精度不够,要么深层浪费算力。DyMoE 的深度自适应策略可以直接借鉴到现有 MoE 推理框架中。