All the articles with the tag "benchmark".
研究发现尽管 SWE-Bench 基准分数持续上升,LLM 生成的 PR 实际被合并进主分支的比例并未改善,暗示评测与现实脱节。
摩根士丹利新报告称,计算规模积累将推动 2026 年上半年 AI 能力跃升,GPT-5.4 已在 GDPVal 基准上超越人类专家,但能源基础设施制约正在加剧。