Skip to content
星际流动

Mixture-of-Depths Attention:按需分配注意力计算的新范式

发布
采集
学术前沿 7.1 分 — 注意力机制优化新方向,在计算效率与模型质量间寻找平衡,是 Transformer 架构改进的有价值探索
原文: arXiv

评分 7.1 · 来源:arXiv · 发布于 2026-03-16

评分依据:注意力机制优化新方向,在计算效率与模型质量间寻找平衡

要点

Mixture-of-Depths (MoD) Attention 提出在不同 token 上 动态分配不同深度的注意力计算

核心思想:

与 Mixture-of-Experts (MoE) 的类比:

🤖 AI 点评

这个思路很直觉 — 人在阅读时也不会对每个字投入同样的注意力。MoD 把这种”注意力经济学”形式化到 Transformer 架构中。

与 MoE 的正交性是最大亮点:MoE 已经被证明有效(GPT-5.4、Mistral Small 4 都是 MoE),如果 MoD 能与 MoE 协同工作,意味着 同时在宽度和深度上优化计算分配,进一步提升推理效率。

不过从论文标题看这是一个相对早期的工作,距离实际部署还有距离。值得追踪后续实验验证。


标签: