评分 7.65 · 来源:arXiv · 发布于 2026-03-19
评分依据:直接可用的训练优化器,性能提升显著且理论完备,对 LLM 训练从业者有即时价值
要点
Muon 优化器通过极分解(polar decomposition)对矩阵动量更新做近似正交化/白化,已被证明能有效加速 Transformer 训练。但极分解的矩阵乘法开销不低,且在不同硬件上表现差异大。
MUD(MomentUm Decorrelation)提出了一种替代方案:用受 Gram-Schmidt 和 Gauss-Seidel 启发的 Cholesky-like 三角白化替代极分解。核心发现包括:
- 数学性质:行正交矩阵是 MUD 映射的不动点,内部步骤等价于对 Gram 矩阵做对称 Gauss-Seidel 预条件,且在不动点附近具有二次局部收敛性。
- 训练效率:相比调优后的 AdamW,wall-clock 一致提升 10-50%;相比 Muon,每步收敛略慢但优化器开销大幅降低,峰值 tokens/s 提升 1.3-2.6x,在 A100 上 GPT-2 Large 上甚至接近 3x。
- 跨领域验证:除语言模型外,还在 ESM-2 150M 蛋白质语言模型上验证,在更少墙钟时间内达到 Muon 级验证困惑度。
🤖 AI 点评
Muon 的问题是「理论好但开销大」——每次更新要跑极分解迭代,矩阵越大越吃力。MUD 用三角分解绕开了这个瓶颈,本质上是在做同一件事(动量白化),但走了计算代价更低的路径。
1.3-2.6x 的 tokens/s 提升对大规模训练意味着真金白银。如果一个 100B 模型的训练要跑几万 A100 小时,optimizer 开销从 20% 降到 10% 就是直接省掉几十万美元。这篇论文的务实之处在于:它没有声称比 Muon 更好,而是承认「每步略慢但总吞吐更高」,这种诚实比吹嘘更有说服力。