OpenClaw-RL：通过对话训练任意 Agent

评分 8.0 · 来源：HuggingFace Papers · 发布于 2026-03-17

统一多种 Agent 场景的在线 RL 框架，工程完整度高，但属于训练基础设施而非算法突破

要点

OpenClaw-RL 提出一个关键观察：每次 Agent 交互都会产生 next-state 信号（用户回复、工具输出、终端状态变化），但现有系统都将其丢弃。该框架从这些信号中恢复两类信息：(1) 评价信号 — 通过 PRM 判断提取为标量奖励；(2) 指导信号 — 通过 Hindsight-Guided On-Policy Distillation (OPD) 恢复为 token 级监督。

系统采用完全解耦的异步架构：策略服务、环境托管、PRM 判断和策略训练四个独立循环，无阻塞依赖。支持个人 Agent（对话式，单用户）和通用 Agent（终端、GUI、SWE、工具调用），所有交互流进入同一训练循环。个人 Agent 可以”通过使用来改进”，从用户重新提问、纠正和显式反馈中学习。

实验显示 Binary RL 和 OPD 互补，组合使用带来显著增益。在通用 Agent 场景中，整合过程奖励和结果奖励优于仅用结果奖励。

🤖 AI 点评

这是 Agent RL 训练基础设施的重要进展。将个人对话和多种通用 Agent 场景统一到同一框架中，异步解耦设计让模型可以边服务边训练。OPD 从 next-state 信号提取 token 级指导的思路很巧妙，比纯标量奖励信息更丰富。不过这更像是工程框架而非算法创新。