多轮强化学习训练工具调用 Agent：MT-GRPO 与迭代奖励校准

发布

2026年04月06日

采集 2026年04月06日 04:33

学术前沿 7.0 分 — 首个将 MT-GRPO 用于工具调用 Agent 训练的工作，奖励设计洞察实用，但方法增量相对渐进

评分 7.0 · 来源：arXiv cs.AI · 发布于 2026-04-06

评分依据：首个将 MT-GRPO 用于工具调用 Agent 训练的工作，奖励设计洞察实用，但方法增量相对渐进

要点

用强化学习训练工具调用 Agent 面临稀疏奖励和跨轮次信用归因的挑战。本研究首次将 MT-GRPO（多轮组相对策略优化）与 GTPO 结合，用于真实客服场景下的工具调用 Agent 训练。

关键发现：朴素设计的密集轮次奖励不如稀疏结果奖励——LLM 判断的奖励信号反而引入了噪声。研究提出的迭代奖励校准方法能更好地平衡信号质量与训练稳定性。

「LLM 判断的奖励不如规则奖励」这个发现在实际训练中很有参考价值。当你用 LLM-as-a-Judge 做 RL 训练的奖励信号时，可能引入了比解决的问题更多的问题。