Tag: transformer

All the articles with the tag "transformer".

7.0
Bottlenecked Transformers：周期性 KV Cache 整合实现通用推理
2026年03月26日
· cs.LG updates on arXiv.org· 03/26 14:33 采集
提出记忆整合/再整合作为辅助隐空间计算新方向
7.7
MUD 优化器：用 Cholesky 白化替代 Muon 极分解，训练速度提升 1.3-2.6x
2026年03月19日
· arXiv· 03/19 16:34 采集
新优化器 MUD 用 Cholesky-like 三角白化替代 Muon 的极分解更新，在保持 Muon 级收敛质量的同时大幅降低优化器开销
7.7
Attention Residuals：Kimi 提出动态残差聚合机制
2026年03月18日
· HuggingFace Papers· 03/17 00:00 采集
用注意力机制替代固定权重残差连接，让每层自适应聚合前序表示
7.1
Mixture-of-Depths Attention：按需分配注意力计算的新范式
2026年03月16日
· arXiv· 03/17 18:35 采集
arXiv 新论文提出 Mixture-of-Depths 注意力机制，在不同 token 上动态分配不同深度的注意力计算，平衡效率与质量
8.5
LLM 作为计算机——在 Transformer 内部执行程序，推理速度指数级提升
2026年03月13日
· Hacker News
Percepta AI 提出全新架构：将程序直接编码进 Transformer 权重中执行，无需传统计算硬件，推理速度可达指数级加速。Hacker News 排名第一。

Bottlenecked Transformers：周期性 KV Cache 整合实现通用推理