评分依据:揭示推理模型 SFT 关键瓶颈——师生风格 divergence 导致微调效果下降甚至负迁移,提出 teacher-student cooperation 框架合成学生一致数据,对当前推理模型训练实践有重要指导意义
How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data
发布
采集
学术前沿 8.0 分
— 揭示推理模型 SFT 关键瓶颈——师生风格 divergence 导致微调效果下降甚至负迁移,提出 teacher-student cooperation 框架合成学生一致数据,对当前推理模型训练实践有重要指导意义 原文: arxiv.org