评分 7.65 · 来源:arXiv · 发布于 2026-03-23
评分依据:直接可用的工程优化,对所有做 LoRA/DoRA 微调的团队有即时价值,数据具体可信
要点
DoRA(Weight-Decomposed Low-Rank Adaptation)是 LoRA 的改进版本,通过将预训练权重分解为幅度和方向分别适配,理论上比 LoRA 保留更多预训练知识。但原始 DoRA 因额外的归一化操作引入了显著开销。这篇论文通过两个关键优化解决这个问题:一是数学上重构分解公式,将幅度和方向的计算解耦为独立的矩阵运算;二是设计融合内核,将归一化操作与矩阵乘法合并,减少内存读写次数。
在 8B 到 32B 的视觉语言模型上实测,Scaling DoRA 实现推理阶段 1.5-2.0 倍加速,训练阶段峰值显存降低最高 7GB,且不损失任何微调质量(与原始 DoRA 精度一致)。这意味着在消费级显卡上微调更大的模型成为可能。
🤖 AI 点评
LoRA/DoRA 微调是目前最主流的模型适配手段,Scaling DoRA 的价值在于它不改变微调效果,纯粹是工程优化——这正是从业者最需要的改进类型。7GB 显存降低意味着原本需要 24GB 显存的微调任务现在可以在 16GB 甚至 12GB 的笔记本 GPU 上完成,大幅降低了模型定制的硬件门槛。对于所有在做模型微调的团队来说,这是即插即用的升级。