评分 8.7 · 来源:Anthropic Engineering · 发布于 2026-03-24
评分依据:首次系统量化基础设施配置对AI编程基准影响,直接挑战排行榜可信度
要点
Anthropic发现SWE-bench和Terminal-Bench前几名差异可能仅来自容器运行时、Python版本、系统依赖等配置差异。基础设施噪声超过模型真实能力差距。
🤖 AI 点评
当噪声超过前几名差异时,排行榜意义值得审视。别仅凭数字做选型,至少看置信区间。
评分 8.7 · 来源:Anthropic Engineering · 发布于 2026-03-24
评分依据:首次系统量化基础设施配置对AI编程基准影响,直接挑战排行榜可信度
Anthropic发现SWE-bench和Terminal-Bench前几名差异可能仅来自容器运行时、Python版本、系统依赖等配置差异。基础设施噪声超过模型真实能力差距。
当噪声超过前几名差异时,排行榜意义值得审视。别仅凭数字做选型,至少看置信区间。