SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents

发布

2026年04月10日

采集 2026年04月10日 04:31

学术前沿 7.5 分 — 自进化Agent的策略+工具图记忆联合优化：在资源受限环境下通过RLVR实现工具合成和经验积累，推动轻量级Agent能力进化。

原文： arxiv.org

评分 7.5 · 来源： · 发布于 2026-04-10

评分依据：自进化Agent的策略+工具图记忆联合优化：在资源受限环境下通过RLVR实现工具合成和经验积累，推动轻量级Agent能力进化。