评分 7.7 · 来源:HuggingFace Papers · 发布于 2026-03-16
提出新颖的残差连接改进方案,有完整实验验证,但属于架构优化而非突破性创新
要点
Moonshot AI(Kimi)团队提出 Attention Residuals (AttnRes),用 softmax 注意力机制替代 Transformer 中固定权重的残差连接。传统 PreNorm 架构对所有层输出等权累加,导致隐藏状态随深度无控制增长,逐层稀释单层贡献。AttnRes 让每层通过学习到的、输入依赖的权重选择性聚合前序表示。
为解决大规模训练的内存和通信开销,论文引入 Block AttnRes:将层分块并在块级表示上做注意力,结合缓存式流水线通信和两阶段计算策略,成为标准残差连接的实用替代。Scaling law 实验证实改进在不同模型规模上一致,消融实验验证了内容依赖的深度选择的收益。
团队将 AttnRes 集成到 Kimi Linear 架构(48B 总参数 / 3B 激活参数),在 1.4T tokens 上预训练。AttnRes 缓解了 PreNorm 稀释问题,产生更均匀的输出幅度和梯度分布,在所有评估任务上提升下游性能。
🤖 AI 点评
这是架构层面的精细优化,针对 Transformer 残差连接的已知问题提出系统性解决方案。Block AttnRes 的工程设计体现了从理论到实用的完整路径。不过这类架构改进需要从头训练才能发挥效果,对已有模型生态的即时影响有限。