评分 7.5 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-16 评分依据:超过1万亿token的合成预训练数据系统性研究:重述策略×生成器模型×源数据的受控实验,发现结构化格式显著提升效果