Tag: transformer
All the articles with the tag "transformer".
- 7.0
Bottlenecked Transformers:周期性 KV Cache 整合实现通用推理
提出记忆整合/再整合作为辅助隐空间计算新方向
- 7.7
MUD 优化器:用 Cholesky 白化替代 Muon 极分解,训练速度提升 1.3-2.6x
新优化器 MUD 用 Cholesky-like 三角白化替代 Muon 的极分解更新,在保持 Muon 级收敛质量的同时大幅降低优化器开销
- 7.7
Attention Residuals:Kimi 提出动态残差聚合机制
用注意力机制替代固定权重残差连接,让每层自适应聚合前序表示
- 7.1
Mixture-of-Depths Attention:按需分配注意力计算的新范式
arXiv 新论文提出 Mixture-of-Depths 注意力机制,在不同 token 上动态分配不同深度的注意力计算,平衡效率与质量
- 8.5
LLM 作为计算机——在 Transformer 内部执行程序,推理速度指数级提升
Percepta AI 提出全新架构:将程序直接编码进 Transformer 权重中执行,无需传统计算硬件,推理速度可达指数级加速。Hacker News 排名第一。