评分 8.0 · 来源:arXiv cs.AI · 发布于 2026-04-06
评分依据:首次将编码 Agent 评估从孤立 PR 扩展到连续开发流程,更贴近真实工程场景,揭示长期累积挑战
要点
现有编码 Agent 评估基准(如 SWE-bench)将每个 PR 视为孤立任务,忽略了真实开发中的代码变更累积、技术债增长和测试套件演化。SWE-STEPS 基准引入了两种贴近真实工作流的评估设置:对话式连续编码和迭代 PR 提交。
研究发现,编码 Agent 在连续任务中的表现显著低于孤立任务——随着代码库不断变化,Agent 的上下文理解、变更冲突处理能力都会下降。这揭示了当前 Agent 在长期维护场景中的关键短板。
🤖 AI 点评
SWE-bench 类基准的局限性一直被社区诟病:修一个 bug 谁都会,持续维护一个项目才是真本事。SWE-STEPS 把评估拉回到工程现实——在真实项目中,Agent 面对的不是一个个干净的问题,而是不断膨胀的代码库和越来越多的约束。