Skip to content
AI Feed
Go back

METR 研究:大量通过 SWE-bench 的 PR 实际上不会被合并

AI 安全评估机构 METR 发布重要研究:他们对 SWE-bench 上获得”通过”评分的 AI 生成 PR 进行了人工代码审查,发现大量 PR 虽然通过了自动化测试,但其代码质量远达不到实际生产环境的合并标准。

这项研究对当前 AI 编程能力的评估方式提出了根本性质疑——基于测试通过率的 benchmark 可能严重高估了 AI 的实际编程能力。

HN 讨论热烈(161 分,52 条评论),普遍认同这一发现,并讨论了更好的评估方式。


Share this post on:

Previous Post
Microsoft BitNet: 1000 亿参数 1-Bit 模型可在本地 CPU 运行
Next Post
OpenAI 研究:推理模型难以控制自身思维链