Skip to content
星际流动

MoDA:混合深度注意力机制,让 LLM 的深度扩展更高效

发布
采集
学术前沿 7.0 分 — MoDA 提出跨层深度 KV 注意力机制,架构创新有新意,对 LLM 效率优化方向有启发,但落地尚远
原文: arXiv

评分 7.05 · 来源:arXiv · 发布于 2026-03-16

架构创新方向,跨层注意力思路有新意,效率开销极低,代码已开源

要点

随着 LLM 深度增加,浅层形成的有效特征会被反复残差更新逐渐稀释(信号衰减问题)。MoDA(Mixture-of-Depths Attention)提出让每个注意力头同时关注当前层的序列 KV 对和前序层的深度 KV 对。

🤖 AI 点评

MoDA 的思路和最近 Mixture-of-Experts 在宽度维度的扩展形成互补——MoE 扩展宽度,MoDA 扩展深度利用率。3.7% 的额外 FLOPs 换来 2%+ 的下游提升,性价比相当高。不过目前验证规模止步于 1.5B,能否在 7B+ 甚至更大模型上保持收益是关键问题。这个方向如果被大厂跟进,可能会改变下一代模型的架构设计思路。


标签: