评分 6.5 · 来源:arXiv cs.AI · 发布于 2026-04-13
评分依据:Self-evolving agent 是 2026 年最热 agent 研究方向之一,SEA-Eval 填补了跨任务边界经验积累评估的关键空白。
Self-Evolving Agent 的困境
当前 LLM agent 的典型工作模式:
- 收到一个任务
- 调用工具、推理、执行
- 任务结束,所有经验清零
- 下一个任务,从头再来
这就是 episodic amnesia(情景失忆)。人类之所以高效,是因为我们能在任务间积累经验、提炼策略、甚至发明新工具。Agent 还做不到。
SEA-Eval 的三维度评估
SEA-Eval 从三个维度评估 self-evolving 能力:
- 知识积累:Agent 在完成一系列任务后,后续同类任务的性能是否提升?
- 策略优化:Agent 是否能发现更高效的解题模式?
- 工具进化:Agent 能否主动创造或组合新工具来解决之前无法解决的问题?
与其他 benchmark 的关系
| Benchmark | 评估焦点 | 与 SEA-Eval 的关系 |
|---|---|---|
| SWE-bench | 单次编码能力 | SEA-Eval 关注多次任务间的改进 |
| HiL-Bench | 判断何时求助 | 互补:一个是元认知,一个是学习 |
| SkillForge | 技能自演化(方法论) | SEA-Eval 可以用来评估这类方法 |
| AgentBoard | 综合能力 | SEA-Eval 增加了时间维度 |
为什么 2026 年这个方向爆发
- Coding agent(Claude Code / Codex)已经证明单次任务能力接近人类上限
- 竞争自然转向:「谁能从经验中学习?」
- 这与 LLM 训练从 pre-training → SFT → RL 的演进路径同构
论文: arXiv:2604.08988