评分 7 · 来源:arXiv · 发布于 2026-04-09
评分依据:Agent策略优化:链中推理+树中学习,自纠正+嫁接,Agent RL方法论创新
Reason in Chains, Learn in Trees: Self-Rectification and Grafting for Agent Policy Optimization
原文: arXiv
评分 7 · 来源:arXiv · 发布于 2026-04-09
评分依据:Agent策略优化:链中推理+树中学习,自纠正+嫁接,Agent RL方法论创新