Skip to content
星际流动

SEA-Eval: A Benchmark for Evaluating Self-Evolving Agents Beyond Episodic Assessment

发布
采集
学术前沿 6.5 分 — Self-evolving agent 是 2026 年最热 agent 研究方向之一,SEA-Eval 填补了跨任务边界经验积累评估的关键空白。
原文: arXiv cs.AI

评分 6.5 · 来源:arXiv cs.AI · 发布于 2026-04-13

评分依据:Self-evolving agent 是 2026 年最热 agent 研究方向之一,SEA-Eval 填补了跨任务边界经验积累评估的关键空白。

Self-Evolving Agent 的困境

当前 LLM agent 的典型工作模式:

  1. 收到一个任务
  2. 调用工具、推理、执行
  3. 任务结束,所有经验清零
  4. 下一个任务,从头再来

这就是 episodic amnesia(情景失忆)。人类之所以高效,是因为我们能在任务间积累经验、提炼策略、甚至发明新工具。Agent 还做不到。

SEA-Eval 的三维度评估

SEA-Eval 从三个维度评估 self-evolving 能力:

  1. 知识积累:Agent 在完成一系列任务后,后续同类任务的性能是否提升?
  2. 策略优化:Agent 是否能发现更高效的解题模式?
  3. 工具进化:Agent 能否主动创造或组合新工具来解决之前无法解决的问题?

与其他 benchmark 的关系

Benchmark评估焦点与 SEA-Eval 的关系
SWE-bench单次编码能力SEA-Eval 关注多次任务间的改进
HiL-Bench判断何时求助互补:一个是元认知,一个是学习
SkillForge技能自演化(方法论)SEA-Eval 可以用来评估这类方法
AgentBoard综合能力SEA-Eval 增加了时间维度

为什么 2026 年这个方向爆发

论文: arXiv:2604.08988


标签: