Tag: benchmark

All the articles with the tag "benchmark".

7.5

SWE-Bench 上 LLM 的 PR 合并率没有提高
HN

13 Mar, 2026

研究发现尽管 SWE-Bench 基准分数持续上升，LLM 生成的 PR 实际被合并进主分支的比例并未改善，暗示评测与现实脱节。
→ 原文链接
7.5

摩根士丹利警告：2026 年上半年 AI 将迎来突破性飞跃，世界尚未准备好
Web

13 Mar, 2026

摩根士丹利新报告称，计算规模积累将推动 2026 年上半年 AI 能力跃升，GPT-5.4 已在 GDPVal 基准上超越人类专家，但能源基础设施制约正在加剧。
→ 原文链接