评分 7.0 · 来源: · 发布于 2026-04-09 评分依据:挑战’SFT只记忆、RL才泛化’的流行叙事,通过条件分析揭示reasoning SFT的泛化能力被低估,对post-training策略有重要修正。