Skip to content
星际流动

Alloc-MoE: Budget-Aware Expert Activation Allocation for Efficient Mixture-of-Experts Inference

发布
采集
学术前沿 7.0 分 — 预算感知的MoE专家激活分配:在延迟约束下最小化性能损失,对MoE推理效率优化有工程价值。
原文: arxiv.org

评分 7 · 来源: · 发布于 2026-04-10

评分依据:预算感知的MoE专家激活分配:在延迟约束下最小化性能损失,对MoE推理效率优化有工程价值。