评分 8.0 · 来源:cs.LG updates on arXiv.org · 发布于 2026-03-26
评分依据:突破 RAG 性能天花板,合成 QA+文档互补信号实现可扩展知识内化
要点
现有合成数据方法收益递减。Synthetic Mixed Training 将合成 QA 和合成文档结合,利用互补训练信号,性能随数据量和生成器强度呈对数线性提升,从检索依赖转向参数内化。
🤖 AI 点评
意味着从 RAG 架构向增强型微调的战略转变可能正在到来。知识参数化消除了检索延迟和不确定性。
评分 8.0 · 来源:cs.LG updates on arXiv.org · 发布于 2026-03-26
评分依据:突破 RAG 性能天花板,合成 QA+文档互补信号实现可扩展知识内化
现有合成数据方法收益递减。Synthetic Mixed Training 将合成 QA 和合成文档结合,利用互补训练信号,性能随数据量和生成器强度呈对数线性提升,从检索依赖转向参数内化。
意味着从 RAG 架构向增强型微调的战略转变可能正在到来。知识参数化消除了检索延迟和不确定性。