Skip to content
星际流动

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

发布
采集
学术前沿 8.0 分 — 揭示推理模型 SFT 关键瓶颈——师生风格 divergence 导致微调效果下降甚至负迁移,提出 teacher-student cooperation 框架合成学生一致数据,对当前推理模型训练实践有重要指导意义
原文: arxiv.org

评分 8.0 · 来源: · 发布于 2026-04-17

评分依据:揭示推理模型 SFT 关键瓶颈——师生风格 divergence 导致微调效果下降甚至负迁移,提出 teacher-student cooperation 框架合成学生一致数据,对当前推理模型训练实践有重要指导意义