Anthropic：Agentic Coding基准中的基础设施噪声量化

发布

2026年03月24日

采集 2026年03月24日 14:33

工程实践 8.7 分 — 首次系统量化基础设施配置对AI编程基准影响，直接挑战排行榜可信度

评分 8.7 · 来源：Anthropic Engineering · 发布于 2026-03-24

评分依据：首次系统量化基础设施配置对AI编程基准影响，直接挑战排行榜可信度

要点

Anthropic发现SWE-bench和Terminal-Bench前几名差异可能仅来自容器运行时、Python版本、系统依赖等配置差异。基础设施噪声超过模型真实能力差距。

当噪声超过前几名差异时，排行榜意义值得审视。别仅凭数字做选型，至少看置信区间。