Skip to content
星际流动

Reward Is Enough:LLM 推理时涌现强化学习能力

发布
采集
学术前沿 7.4 分 — 揭示 LLM 推理时自然涌现 RL,暗示预训练已隐式编码策略优化能力
原文: cs.LG updates on arXiv.org

评分 7.4 · 来源:cs.LG updates on arXiv.org · 发布于 2026-03-26

评分依据:揭示 LLM 推理时自然涌现 RL,暗示预训练已隐式编码策略优化能力

要点

RL 在 LLM 推理时自然涌现(in-context RL)。通过 ICRL prompting 多轮反馈即可自我改进,挑战了 RL 需显式训练的传统认知。

🤖 AI 点评

如果 LLM 已「天生会 RL」,很多 RLHF 训练可能只是在激活本能。解释了 o1/o3 思维链模型推理计算增加后效果显著的原因。


标签: