Skip to content
星际流动

On the Trainability of Masked Diffusion Language Models via Blockwise Locality

发布
采集
学术前沿 5.5 分 — MDM 可训练性研究,blockwise masking 改善优化稳定性
原文: arXiv cs.LG

评分 5.5 · 来源:arXiv cs.LG · 发布于 2026-04-29

评分依据:MDM 可训练性研究,blockwise masking 改善优化稳定性

MDM 作为 AR-LLM 替代方案出现,但优化明显不稳定。本文研究 blockwise MDM 并在三个受控任务上对比 AR-LLM,发现标准 random masking 导致训练不稳定,blockwise locality 是关键。


标签: