评分 6 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-22
评分依据:将RL融入DMD扩散蒸馏并解决样本评分冲突问题,生成效率与质量的权衡优化
DMD + RL 的冲突
Distribution Matching Distillation (DMD) 在少步生成方面前景广阔,但常牺牲质量换速度。融入RL可以改善,但:
- 朴素融合依赖有缺陷的样本评分
- 样本评分与蒸馏轨迹产生内在冲突
本文方案
- 设计基于梯度的RL信号来解决评分冲突
- 使RL目标与蒸馏方向一致
- 兼得少步生成的高效和高质量输出
价值
对扩散蒸馏/模型压缩方向有方法论贡献。