Tag: 多轮对话

All the articles with the tag "多轮对话".

7.0
多轮强化学习训练工具调用 Agent：MT-GRPO 与迭代奖励校准
2026年04月06日
· arXiv cs.AI· 04/06 12:33 采集
首次将 MT-GRPO 与 GTPO 结合用于工具调用 Agent 训练，发现基于规则的密集奖励比 LLM 判断更稳定，提出迭代奖励校准方法。