Skip to content
星际流动

Reason in Chains, Learn in Trees: Self-Rectification and Grafting for Agent Policy Optimization

发布
采集
学术前沿 7.0 分 — Agent策略优化:链中推理+树中学习,自纠正+嫁接,Agent RL方法论创新
原文: arXiv

评分 7 · 来源:arXiv · 发布于 2026-04-09

评分依据:Agent策略优化:链中推理+树中学习,自纠正+嫁接,Agent RL方法论创新