Scaling DoRA：分解范数与融合内核让微调加速 2 倍、显存降低 7GB

评分 7.65 · 来源：arXiv · 发布于 2026-03-23

评分依据：直接可用的工程优化，对所有做 LoRA/DoRA 微调的团队有即时价值，数据具体可信

要点

DoRA（Weight-Decomposed Low-Rank Adaptation）是 LoRA 的改进版本，通过将预训练权重分解为幅度和方向分别适配，理论上比 LoRA 保留更多预训练知识。但原始 DoRA 因额外的归一化操作引入了显著开销。这篇论文通过两个关键优化解决这个问题：一是数学上重构分解公式，将幅度和方向的计算解耦为独立的矩阵运算；二是设计融合内核，将归一化操作与矩阵乘法合并，减少内存读写次数。

在 8B 到 32B 的视觉语言模型上实测，Scaling DoRA 实现推理阶段 1.5-2.0 倍加速，训练阶段峰值显存降低最高 7GB，且不损失任何微调质量（与原始 DoRA 精度一致）。这意味着在消费级显卡上微调更大的模型成为可能。

🤖 AI 点评

LoRA/DoRA 微调是目前最主流的模型适配手段，Scaling DoRA 的价值在于它不改变微调效果，纯粹是工程优化——这正是从业者最需要的改进类型。7GB 显存降低意味着原本需要 24GB 显存的微调任务现在可以在 16GB 甚至 12GB 的笔记本 GPU 上完成，大幅降低了模型定制的硬件门槛。对于所有在做模型微调的团队来说，这是即插即用的升级。