Why Does Reinforcement Learning Generalize? A Feature-Level Mechanistic Study of Post-Training in LLMs

发布

2026年04月29日

采集 2026年04月29日 06:31

学术前沿 6.0 分 — 特征级机制分析解释 RL 后训练泛化而 SFT 遗忘的原因，对理解 post-training 机制有重要价值

原文： arXiv cs.CL

评分 6 · 来源：arXiv cs.CL · 发布于 2026-04-29

评分依据：特征级机制分析解释 RL 后训练泛化而 SFT 遗忘的原因，对理解 post-training 机制有重要价值

RL-based post-training 经常提升 LLM 在训练域外的推理能力，而 SFT 频繁导致通用能力遗忘。本文通过受控实验设置进行特征级机制分析，探测 RL 泛化的底层机制，揭示两者在表示层面的根本差异。

标签：

Frictive Policy Optimization for LLMs: Epistemic Intervention, Risk-Sensitive Control, and Reflective Alignment

Knowledge Distillation Must Account for What It Loses