Skip to content
星际流动

Beyond Isolated Tasks:评估编码 Agent 在连续软件演化中的表现

发布
采集
工程实践 8.0 分 — 首次将编码 Agent 评估从孤立 PR 扩展到连续开发流程,更贴近真实工程场景,揭示长期累积挑战
原文: arXiv cs.AI

评分 8.0 · 来源:arXiv cs.AI · 发布于 2026-04-06

评分依据:首次将编码 Agent 评估从孤立 PR 扩展到连续开发流程,更贴近真实工程场景,揭示长期累积挑战

要点

现有编码 Agent 评估基准(如 SWE-bench)将每个 PR 视为孤立任务,忽略了真实开发中的代码变更累积、技术债增长和测试套件演化。SWE-STEPS 基准引入了两种贴近真实工作流的评估设置:对话式连续编码和迭代 PR 提交。

研究发现,编码 Agent 在连续任务中的表现显著低于孤立任务——随着代码库不断变化,Agent 的上下文理解、变更冲突处理能力都会下降。这揭示了当前 Agent 在长期维护场景中的关键短板。

🤖 AI 点评

SWE-bench 类基准的局限性一直被社区诟病:修一个 bug 谁都会,持续维护一个项目才是真本事。SWE-STEPS 把评估拉回到工程现实——在真实项目中,Agent 面对的不是一个个干净的问题,而是不断膨胀的代码库和越来越多的约束。


标签: