SEA-Eval: A Benchmark for Evaluating Self-Evolving Agents Beyond Episodic Assessment

发布

2026年04月13日

采集 2026年04月13日 04:31

学术前沿 6.5 分 — Self-evolving agent 是 2026 年最热 agent 研究方向之一，SEA-Eval 填补了跨任务边界经验积累评估的关键空白。

原文： arXiv cs.AI

评分 6.5 · 来源：arXiv cs.AI · 发布于 2026-04-13

评分依据：Self-evolving agent 是 2026 年最热 agent 研究方向之一，SEA-Eval 填补了跨任务边界经验积累评估的关键空白。

Self-Evolving Agent 的困境

当前 LLM agent 的典型工作模式：

收到一个任务
调用工具、推理、执行
任务结束，所有经验清零
下一个任务，从头再来

这就是 episodic amnesia（情景失忆）。人类之所以高效，是因为我们能在任务间积累经验、提炼策略、甚至发明新工具。Agent 还做不到。

SEA-Eval 的三维度评估

SEA-Eval 从三个维度评估 self-evolving 能力：

知识积累：Agent 在完成一系列任务后，后续同类任务的性能是否提升？
策略优化：Agent 是否能发现更高效的解题模式？
工具进化：Agent 能否主动创造或组合新工具来解决之前无法解决的问题？

与其他 benchmark 的关系

Benchmark	评估焦点	与 SEA-Eval 的关系
SWE-bench	单次编码能力	SEA-Eval 关注多次任务间的改进
HiL-Bench	判断何时求助	互补：一个是元认知，一个是学习
SkillForge	技能自演化（方法论）	SEA-Eval 可以用来评估这类方法
AgentBoard	综合能力	SEA-Eval 增加了时间维度

为什么 2026 年这个方向爆发

Coding agent（Claude Code / Codex）已经证明单次任务能力接近人类上限
竞争自然转向：「谁能从经验中学习？」
这与 LLM 训练从 pre-training → SFT → RL 的演进路径同构

论文: arXiv:2604.08988

标签：

DRBENCHER: Can Your Agent Identify the Entity, Retrieve Its Properties and Do the Math?

Enhancing LLM Problem Solving via Tutor-Student Multi-Agent Interaction