DyMoE：MoE 模型边缘推理的动态混合精度框架，TTFT 加速最高 22.7 倍

评分 7.7 · 来源：arXiv · 发布于 2026-03-21

评分依据：显著的性能提升数据（TTFT 最高 22.7x），且有商业边缘硬件验证，对 MoE 端侧部署有直接参考价值

要点

MoE 模型虽然计算效率高，但多专家架构的内存占用和 I/O 开销使其在资源受限的边缘设备上难以实现实时推理。DyMoE 提出三个关键机制：基于重要性感知的动态量化（运行时按专家重要性选择量化精度）、深度自适应调度（在关键层保留高精度以维护语义完整性）、前瞻性预取（用计算隐藏 I/O 延迟）。

核心发现：专家重要性的偏斜程度随网络深度变化显著——浅层专家差异大，深层趋于均匀。利用这一规律可以大幅减少不必要的精度保留。

在商业边缘硬件上的实验结果：TTFT 降低 3.44x 至 22.7x，TPOT 最高加速 14.58x，使 MoE 模型在资源受限设备上实现实时推理成为可能。

MoE 的「内存墙」问题一直是端侧部署的核心瓶颈。传统方案要么牺牲精度要么全量加载，DyMoE 的思路是「因材施教」——不同专家、不同深度给予不同的精度待遇。这个观察本身并不复杂，但其带来的数量级提升说明：MoE 优化还有大量低垂果实。

对实际部署最有价值的启示是「专家重要性随深度变化」这一发现。这意味着 MoE 模型的量化策略不能一刀切——如果只做全局量化，要么浅层精度不够，要么深层浪费算力。DyMoE 的深度自适应策略可以直接借鉴到现有 MoE 推理框架中。