评分 7.4 · 来源:cs.LG updates on arXiv.org · 发布于 2026-03-26
评分依据:揭示 LLM 推理时自然涌现 RL,暗示预训练已隐式编码策略优化能力
要点
RL 在 LLM 推理时自然涌现(in-context RL)。通过 ICRL prompting 多轮反馈即可自我改进,挑战了 RL 需显式训练的传统认知。
🤖 AI 点评
如果 LLM 已「天生会 RL」,很多 RLHF 训练可能只是在激活本能。解释了 o1/o3 思维链模型推理计算增加后效果显著的原因。