Tag: 多轮对话
All the articles with the tag "多轮对话".
- 7.0
多轮强化学习训练工具调用 Agent:MT-GRPO 与迭代奖励校准
首次将 MT-GRPO 与 GTPO 结合用于工具调用 Agent 训练,发现基于规则的密集奖励比 LLM 判断更稳定,提出迭代奖励校准方法。
All the articles with the tag "多轮对话".
首次将 MT-GRPO 与 GTPO 结合用于工具调用 Agent 训练,发现基于规则的密集奖励比 LLM 判断更稳定,提出迭代奖励校准方法。