评分 6 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-22
评分依据:揭示soft labels导致DD方法退化为random baseline的根本原因,与coreset形成鲜明对比。对dataset distillation领域有重要反思价值
Dataset Distillation 的隐忧
尽管大规模DD方法被认为很成功,但最新证据表明简单random image baseline与SOTA DD方法(如SRe2L)表现相当——因为soft labels。
核心发现
- Soft labels在下游模型训练中掩盖了数据集的真实结构
- Coreset文献中high-quality coresets在hard label设置下始终优于random subset
- DD的成功是一种soft label artifact
反思价值
对整个dataset distillation领域提出了根本性质疑:我们是否走错了方向?