Tag: tool-use
All the articles with the tag "tool-use".
- 6.5
SEA-Eval: A Benchmark for Evaluating Self-Evolving Agents Beyond Episodic Assessment
SEA-Eval 首次提出超越 episode 内评估的 self-evolving agent benchmark 框架,评估 agent 是否能在任务间积累经验、优化策略、进化工具集——而非每次都从零开始。