Beyond Isolated Tasks：评估编码 Agent 在连续软件演化中的表现

评分 8.0 · 来源：arXiv cs.AI · 发布于 2026-04-06

评分依据：首次将编码 Agent 评估从孤立 PR 扩展到连续开发流程，更贴近真实工程场景，揭示长期累积挑战

要点

现有编码 Agent 评估基准（如 SWE-bench）将每个 PR 视为孤立任务，忽略了真实开发中的代码变更累积、技术债增长和测试套件演化。SWE-STEPS 基准引入了两种贴近真实工作流的评估设置：对话式连续编码和迭代 PR 提交。

研究发现，编码 Agent 在连续任务中的表现显著低于孤立任务——随着代码库不断变化，Agent 的上下文理解、变更冲突处理能力都会下降。这揭示了当前 Agent 在长期维护场景中的关键短板。

SWE-bench 类基准的局限性一直被社区诟病：修一个 bug 谁都会，持续维护一个项目才是真本事。SWE-STEPS 把评估拉回到工程现实——在真实项目中，Agent 面对的不是一个个干净的问题，而是不断膨胀的代码库和越来越多的约束。