评分 5.5 · 来源:arXiv cs.LG · 发布于 2026-04-29
评分依据:MDM 可训练性研究,blockwise masking 改善优化稳定性
MDM 作为 AR-LLM 替代方案出现,但优化明显不稳定。本文研究 blockwise MDM 并在三个受控任务上对比 AR-LLM,发现标准 random masking 导致训练不稳定,blockwise locality 是关键。
评分 5.5 · 来源:arXiv cs.LG · 发布于 2026-04-29
评分依据:MDM 可训练性研究,blockwise masking 改善优化稳定性
MDM 作为 AR-LLM 替代方案出现,但优化明显不稳定。本文研究 blockwise MDM 并在三个受控任务上对比 AR-LLM,发现标准 random masking 导致训练不稳定,blockwise locality 是关键。