评分 7.0 · 来源:arXiv cs.AI · 发布于 2026-04-06
评分依据:首个将 MT-GRPO 用于工具调用 Agent 训练的工作,奖励设计洞察实用,但方法增量相对渐进
要点
用强化学习训练工具调用 Agent 面临稀疏奖励和跨轮次信用归因的挑战。本研究首次将 MT-GRPO(多轮组相对策略优化)与 GTPO 结合,用于真实客服场景下的工具调用 Agent 训练。
关键发现:朴素设计的密集轮次奖励不如稀疏结果奖励——LLM 判断的奖励信号反而引入了噪声。研究提出的迭代奖励校准方法能更好地平衡信号质量与训练稳定性。
🤖 AI 点评
「LLM 判断的奖励不如规则奖励」这个发现在实际训练中很有参考价值。当你用 LLM-as-a-Judge 做 RL 训练的奖励信号时,可能引入了比解决的问题更多的问题。