Synthetic Mixed Training：突破 RAG 天花板，合成数据实现参数级知识获取

发布

2026年03月26日

采集 2026年03月26日 06:33

学术前沿 8.0 分 — 突破 RAG 性能天花板，合成 QA+文档互补信号实现可扩展知识内化

评分 8.0 · 来源：cs.LG updates on arXiv.org · 发布于 2026-03-26

评分依据：突破 RAG 性能天花板，合成 QA+文档互补信号实现可扩展知识内化

要点

现有合成数据方法收益递减。Synthetic Mixed Training 将合成 QA 和合成文档结合，利用互补训练信号，性能随数据量和生成器强度呈对数线性提升，从检索依赖转向参数内化。

意味着从 RAG 架构向增强型微调的战略转变可能正在到来。知识参数化消除了检索延迟和不确定性。