Skip to content
星际流动

METR 研究:大量通过 SWE-bench 的 PR 实际上不会被合并

学术前沿 8.7 分
原文: METR / Hacker News

AI 安全评估机构 METR 发布重要研究:他们对 SWE-bench 上获得”通过”评分的 AI 生成 PR 进行了人工代码审查,发现大量 PR 虽然通过了自动化测试,但其代码质量远达不到实际生产环境的合并标准。

这项研究对当前 AI 编程能力的评估方式提出了根本性质疑——基于测试通过率的 benchmark 可能严重高估了 AI 的实际编程能力。

HN 讨论热烈(161 分,52 条评论),普遍认同这一发现,并讨论了更好的评估方式。


标签: