On the Trainability of Masked Diffusion Language Models via Blockwise Locality

发布

2026年04月29日

采集 2026年04月29日 06:31

学术前沿 5.5 分 — MDM 可训练性研究，blockwise masking 改善优化稳定性

原文： arXiv cs.LG

评分 5.5 · 来源：arXiv cs.LG · 发布于 2026-04-29

评分依据：MDM 可训练性研究，blockwise masking 改善优化稳定性

MDM 作为 AR-LLM 替代方案出现，但优化明显不稳定。本文研究 blockwise MDM 并在三个受控任务上对比 AR-LLM，发现标准 random masking 导致训练不稳定，blockwise locality 是关键。

标签：

Intrinsic Mutual Information as a Modulator for Preference Optimization

Exploring Time Conditioning in Diffusion Generative Models from Disjoint Noisy Data Manifolds