Skip to content
星际流动

多轮强化学习训练工具调用 Agent:MT-GRPO 与迭代奖励校准

发布
采集
学术前沿 7.0 分 — 首个将 MT-GRPO 用于工具调用 Agent 训练的工作,奖励设计洞察实用,但方法增量相对渐进
原文: arXiv cs.AI

评分 7.0 · 来源:arXiv cs.AI · 发布于 2026-04-06

评分依据:首个将 MT-GRPO 用于工具调用 Agent 训练的工作,奖励设计洞察实用,但方法增量相对渐进

要点

用强化学习训练工具调用 Agent 面临稀疏奖励和跨轮次信用归因的挑战。本研究首次将 MT-GRPO(多轮组相对策略优化)与 GTPO 结合,用于真实客服场景下的工具调用 Agent 训练。

关键发现:朴素设计的密集轮次奖励不如稀疏结果奖励——LLM 判断的奖励信号反而引入了噪声。研究提出的迭代奖励校准方法能更好地平衡信号质量与训练稳定性。

🤖 AI 点评

「LLM 判断的奖励不如规则奖励」这个发现在实际训练中很有参考价值。当你用 LLM-as-a-Judge 做 RL 训练的奖励信号时,可能引入了比解决的问题更多的问题。


标签: