Skip to content
星际流动

How Can We Synthesize High-Quality Pretraining Data? A Systematic Study

发布
采集
学术前沿 7.5 分 — 超过1万亿token的合成预训练数据系统性研究:重述策略×生成器模型×源数据的受控实验,发现结构化格式显著提升效果
原文: cs.CL updates on arXiv.org

评分 7.5 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-16

评分依据:超过1万亿token的合成预训练数据系统性研究:重述策略×生成器模型×源数据的受控实验,发现结构化格式显著提升效果