规模化 RL 代码生成：合成数据与课程学习的深度实践

发布

2026年03月26日

采集 2026年03月26日 06:33

学术前沿 7.4 分 — 揭示 RL 代码生成瓶颈在数据结构而非体积，提出可扩展合成管线

评分 7.4 · 来源：cs.LG updates on arXiv.org · 发布于 2026-03-26

评分依据：揭示 RL 代码生成瓶颈在数据结构而非体积，提出可扩展合成管线

要点

RL 代码生成规模化受限于数据多样性而非体积。提出多轮合成管线：教师基于学生表现迭代优化问题，结构化难度递进，无需教师微调。

核心洞察「不是更多数据而是更好结构」适用于所有 RL 场景。教师-学生迭代让合成数据从随机生成进化到针对性补强。