Skip to content
星际流动

SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents

发布
采集
学术前沿 7.5 分 — 自进化Agent的策略+工具图记忆联合优化:在资源受限环境下通过RLVR实现工具合成和经验积累,推动轻量级Agent能力进化。
原文: arxiv.org

评分 7.5 · 来源: · 发布于 2026-04-10

评分依据:自进化Agent的策略+工具图记忆联合优化:在资源受限环境下通过RLVR实现工具合成和经验积累,推动轻量级Agent能力进化。