Rethinking Dataset Distillation: Hard Truths about Soft Labels

发布

2026年04月22日

采集 2026年04月22日 06:31

学术前沿 6.0 分 — 揭示soft labels导致DD方法退化为random baseline的根本原因，与coreset形成鲜明对比。对dataset distillation领域有重要反思价值

评分 6 · 来源：cs.LG updates on arXiv.org · 发布于 2026-04-22

评分依据：揭示soft labels导致DD方法退化为random baseline的根本原因，与coreset形成鲜明对比。对dataset distillation领域有重要反思价值

Dataset Distillation 的隐忧

尽管大规模DD方法被认为很成功，但最新证据表明简单random image baseline与SOTA DD方法（如SRe2L）表现相当——因为soft labels。

核心发现

Soft labels在下游模型训练中掩盖了数据集的真实结构
Coreset文献中high-quality coresets在hard label设置下始终优于random subset
DD的成功是一种soft label artifact

反思价值

对整个dataset distillation领域提出了根本性质疑：我们是否走错了方向？