How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

发布

2026年04月17日

采集 2026年04月17日 04:31

学术前沿 8.0 分 — 揭示推理模型 SFT 关键瓶颈——师生风格 divergence 导致微调效果下降甚至负迁移，提出 teacher-student cooperation 框架合成学生一致数据，对当前推理模型训练实践有重要指导意义

原文： arxiv.org

评分 8.0 · 来源： · 发布于 2026-04-17

评分依据：揭示推理模型 SFT 关键瓶颈——师生风格 divergence 导致微调效果下降甚至负迁移，提出 teacher-student cooperation 框架合成学生一致数据，对当前推理模型训练实践有重要指导意义