Skip to content
AI Feed
Go back

SWE-Bench 上 LLM 的 PR 合并率没有提高

Entropic Thoughts 发布分析文章,质疑 SWE-Bench 基准的真实价值:LLM 在 SWE-Bench 的得分年年攀升,但生成 PR 被实际项目合并的比例并未跟上

作者统计了主流 AI coding 工具生成的 PR 样本,发现即使通过了 SWE-Bench 测试集,PR 在真实 GitHub 项目中被 maintainer 接受的比率依然很低。核心问题在于:SWE-Bench 考察的是「能否让测试通过」,而真实 PR review 还需要考虑代码风格、架构一致性、边界处理、文档完整性等一系列人类关注的维度。

对行业的影响:这一发现呼应了 METR 之前关于 AI coding 工具在实际项目中表现不稳定的研究,也为「SWE-Bench 300% → coding 工作全部 AI 化」的乐观叙事泼了一盆冷水。更深层的问题是:我们是否在用一个容易优化但不代表真实价值的指标,来定义 AI 编程能力的进步?

不过文章也指出,这并不意味着 AI coding 工具没有价值,而是提醒我们不要把 benchmark 得分与实际开发效率直接画等号。


Share this post on:

Previous Post
Fish Audio 开源 S2:可精细控制情感的新一代 TTS 模型
Next Post
AI 人脸识别错误导致无辜祖母身陷囹圄数月