Tag: 注意力机制

All the articles with the tag "注意力机制".

7.0
MoDA：混合深度注意力机制，让 LLM 的深度扩展更高效
2026年03月17日
· arXiv· 03/18 04:36 采集
提出跨层深度 KV 注意力机制 MoDA，在仅增加 3.7% FLOPs 的情况下显著提升深层 LLM 性能
7.1
Mixture-of-Depths Attention：按需分配注意力计算的新范式
2026年03月16日
· arXiv· 03/17 18:35 采集
arXiv 新论文提出 Mixture-of-Depths 注意力机制，在不同 token 上动态分配不同深度的注意力计算，平衡效率与质量