评分 6 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:特征级机制分析解释 RL 后训练泛化而 SFT 遗忘的原因,对理解 post-training 机制有重要价值
RL-based post-training 经常提升 LLM 在训练域外的推理能力,而 SFT 频繁导致通用能力遗忘。本文通过受控实验设置进行特征级机制分析,探测 RL 泛化的底层机制,揭示两者在表示层面的根本差异。
评分 6 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:特征级机制分析解释 RL 后训练泛化而 SFT 遗忘的原因,对理解 post-training 机制有重要价值
RL-based post-training 经常提升 LLM 在训练域外的推理能力,而 SFT 频繁导致通用能力遗忘。本文通过受控实验设置进行特征级机制分析,探测 RL 泛化的底层机制,揭示两者在表示层面的根本差异。