评分 7.5 · 来源:cs.CL updates on arXiv.org · 发布于 2026-03-27
评分依据:首个系统评估 Agent 迭代编码退化问题的基准,直击当前 Coding Agent 的真实痛点
要点
SlopCodeBench 是一个语言无关的编码 Agent 基准测试,专门评估 Agent 在长程迭代任务中代码质量的退化趋势。现有基准主要评估单次解决方案,但实际软件开发是迭代的——代码通过测试后可能越来越难扩展。
基准不限制 Agent 的设计决策,忠实衡量代码质量如何影响后续扩展,比现有迭代基准更贴近真实开发场景。
🤖 AI 点评
这正是 Coding Agent 从「demo 级」走向「生产级」必须跨越的门槛。当前大多数 Agent 演示都是一次成型的「一次性工程」,而真实项目需要反复修改。如果 Agent 在第三轮迭代后就开始生成垃圾代码,那再强的单次能力也意义有限。