Skip to content
星际流动

OpenClaw-RL:通过对话训练任意 Agent

发布
采集
工程实践 8.0 分 — 统一多种 Agent 场景的在线 RL 框架,工程完整度高,但属于训练基础设施而非算法突破
原文: HuggingFace Papers

评分 8.0 · 来源:HuggingFace Papers · 发布于 2026-03-17

统一多种 Agent 场景的在线 RL 框架,工程完整度高,但属于训练基础设施而非算法突破

要点

OpenClaw-RL 提出一个关键观察:每次 Agent 交互都会产生 next-state 信号(用户回复、工具输出、终端状态变化),但现有系统都将其丢弃。该框架从这些信号中恢复两类信息:(1) 评价信号 — 通过 PRM 判断提取为标量奖励;(2) 指导信号 — 通过 Hindsight-Guided On-Policy Distillation (OPD) 恢复为 token 级监督。

系统采用完全解耦的异步架构:策略服务、环境托管、PRM 判断和策略训练四个独立循环,无阻塞依赖。支持个人 Agent(对话式,单用户)和通用 Agent(终端、GUI、SWE、工具调用),所有交互流进入同一训练循环。个人 Agent 可以”通过使用来改进”,从用户重新提问、纠正和显式反馈中学习。

实验显示 Binary RL 和 OPD 互补,组合使用带来显著增益。在通用 Agent 场景中,整合过程奖励和结果奖励优于仅用结果奖励。

🤖 AI 点评

这是 Agent RL 训练基础设施的重要进展。将个人对话和多种通用 Agent 场景统一到同一框架中,异步解耦设计让模型可以边服务边训练。OPD 从 next-state 信号提取 token 级指导的思路很巧妙,比纯标量奖励信息更丰富。不过这更像是工程框架而非算法创新。


标签: