Mixture-of-Depths Attention：按需分配注意力计算的新范式

评分 7.1 · 来源：arXiv · 发布于 2026-03-16

评分依据：注意力机制优化新方向，在计算效率与模型质量间寻找平衡

要点

Mixture-of-Depths (MoD) Attention 提出在不同 token 上 动态分配不同深度的注意力计算：

核心思想：

与 Mixture-of-Experts (MoE) 的类比：

这个思路很直觉 — 人在阅读时也不会对每个字投入同样的注意力。MoD 把这种”注意力经济学”形式化到 Transformer 架构中。

与 MoE 的正交性是最大亮点：MoE 已经被证明有效（GPT-5.4、Mistral Small 4 都是 MoE），如果 MoD 能与 MoE 协同工作，意味着 同时在宽度和深度上优化计算分配，进一步提升推理效率。

不过从论文标题看这是一个相对早期的工作，距离实际部署还有距离。值得追踪后续实验验证。