Reward Is Enough：LLM 推理时涌现强化学习能力

发布

2026年03月26日

采集 2026年03月26日 06:33

学术前沿 7.4 分 — 揭示 LLM 推理时自然涌现 RL，暗示预训练已隐式编码策略优化能力

评分 7.4 · 来源：cs.LG updates on arXiv.org · 发布于 2026-03-26

评分依据：揭示 LLM 推理时自然涌现 RL，暗示预训练已隐式编码策略优化能力

要点

RL 在 LLM 推理时自然涌现（in-context RL）。通过 ICRL prompting 多轮反馈即可自我改进，挑战了 RL 需显式训练的传统认知。

如果 LLM 已「天生会 RL」，很多 RLHF 训练可能只是在激活本能。解释了 o1/o3 思维链模型推理计算增加后效果显著的原因。