Skip to content
星际流动

ARC-AGI-3 血洗全球大模型:人类满分,AI第一名仅 0.2%

发布
采集
模型动态 7.0 分 — 全新交互式游戏基准测试首次发布,全球顶尖大模型全部溃败,直接挑战 AGI 进展叙事,信息增量极高
原文: 36氪 - 科技频道

评分 7.0 · 来源:36氪 - 科技频道 · 发布于 2026-03-26

评分依据:全新交互式游戏基准测试首次发布,全球顶尖大模型全部溃败,直接挑战 AGI 进展叙事,信息增量极高

要点

ARC-AGI-3 今日正式出炉,这是 AI 基准测试的一次范式跃迁:从「静态网格推理题」升级为「150+ 交互式游戏关卡,1000+ 关卡」。测试不再只是观察示例推断规律,而是需要在动态环境中通过多步交互完成目标。

结果堪称灾难:人类得分为 100%,而所有顶尖大模型得分普遍低于 1%。曾经的「模范生」Claude Opus 4.6 在上一代测试 ARC-AGI-2 中拿下 69.2% 高分,在 ARC-AGI-3 面前直接跌至 0.2%——连蒙带猜都拿不到 1 分。黄仁勋在最近采访中宣称 AGI 已实现,但 ARC-AGI-3 的数据暗示,如今的 AI 连 1% 的 AGI 都没有实现。

这一结果揭示的深层问题是:当前大模型的「智能」本质上是模式匹配的高效执行,而非真正的因果推理或世界建模。一旦测试环境引入动态交互和长链条推理需求,模型的能力就出现了断崖式下跌。

🤖 AI 点评

ARC-AGI-3 的设计理念值得关注——从静态到交互的难度跃迁,可能比任何单一的参数规模提升都更能暴露 AI 的真实能力边界。当所有模型在同一个新维度上集体溃败时,问题可能不在模型本身,而在于我们对「智能」的定义和评估方式需要根本性的革新。对于 AI 从业者而言,这类基准比排行榜更有价值:它诚实。


标签: