Tag: 注意力机制
All the articles with the tag "注意力机制".
- 7.0
MoDA:混合深度注意力机制,让 LLM 的深度扩展更高效
提出跨层深度 KV 注意力机制 MoDA,在仅增加 3.7% FLOPs 的情况下显著提升深层 LLM 性能
- 7.1
Mixture-of-Depths Attention:按需分配注意力计算的新范式
arXiv 新论文提出 Mixture-of-Depths 注意力机制,在不同 token 上动态分配不同深度的注意力计算,平衡效率与质量