SlopCodeBench：衡量编码 Agent 长程迭代任务中的代码质量退化

发布

2026年03月27日

采集 2026年03月27日 04:31

工程实践 7.5 分 — 首个系统评估 Agent 迭代编码退化问题的基准，直击当前 Coding Agent 的真实痛点

评分 7.5 · 来源：cs.CL updates on arXiv.org · 发布于 2026-03-27

评分依据：首个系统评估 Agent 迭代编码退化问题的基准，直击当前 Coding Agent 的真实痛点

要点

SlopCodeBench 是一个语言无关的编码 Agent 基准测试，专门评估 Agent 在长程迭代任务中代码质量的退化趋势。现有基准主要评估单次解决方案，但实际软件开发是迭代的——代码通过测试后可能越来越难扩展。

基准不限制 Agent 的设计决策，忠实衡量代码质量如何影响后续扩展，比现有迭代基准更贴近真实开发场景。

这正是 Coding Agent 从「demo 级」走向「生产级」必须跨越的门槛。当前大多数 Agent 演示都是一次成型的「一次性工程」，而真实项目需要反复修改。如果 Agent 在第三轮迭代后就开始生成垃圾代码，那再强的单次能力也意义有限。