Skip to content
星际流动

Why Does Reinforcement Learning Generalize? A Feature-Level Mechanistic Study of Post-Training in LLMs

发布
采集
学术前沿 6.0 分 — 特征级机制分析解释 RL 后训练泛化而 SFT 遗忘的原因,对理解 post-training 机制有重要价值
原文: arXiv cs.CL

评分 6 · 来源:arXiv cs.CL · 发布于 2026-04-29

评分依据:特征级机制分析解释 RL 后训练泛化而 SFT 遗忘的原因,对理解 post-training 机制有重要价值

RL-based post-training 经常提升 LLM 在训练域外的推理能力,而 SFT 频繁导致通用能力遗忘。本文通过受控实验设置进行特征级机制分析,探测 RL 泛化的底层机制,揭示两者在表示层面的根本差异。


标签: