ARC-AGI-3 血洗全球大模型：人类满分，AI第一名仅 0.2%

评分 7.0 · 来源：36氪 - 科技频道 · 发布于 2026-03-26

评分依据：全新交互式游戏基准测试首次发布，全球顶尖大模型全部溃败，直接挑战 AGI 进展叙事，信息增量极高

要点

ARC-AGI-3 今日正式出炉，这是 AI 基准测试的一次范式跃迁：从「静态网格推理题」升级为「150+ 交互式游戏关卡，1000+ 关卡」。测试不再只是观察示例推断规律，而是需要在动态环境中通过多步交互完成目标。

结果堪称灾难：人类得分为 100%，而所有顶尖大模型得分普遍低于 1%。曾经的「模范生」Claude Opus 4.6 在上一代测试 ARC-AGI-2 中拿下 69.2% 高分，在 ARC-AGI-3 面前直接跌至 0.2%——连蒙带猜都拿不到 1 分。黄仁勋在最近采访中宣称 AGI 已实现，但 ARC-AGI-3 的数据暗示，如今的 AI 连 1% 的 AGI 都没有实现。

这一结果揭示的深层问题是：当前大模型的「智能」本质上是模式匹配的高效执行，而非真正的因果推理或世界建模。一旦测试环境引入动态交互和长链条推理需求，模型的能力就出现了断崖式下跌。

🤖 AI 点评

ARC-AGI-3 的设计理念值得关注——从静态到交互的难度跃迁，可能比任何单一的参数规模提升都更能暴露 AI 的真实能力边界。当所有模型在同一个新维度上集体溃败时，问题可能不在模型本身，而在于我们对「智能」的定义和评估方式需要根本性的革新。对于 AI 从业者而言，这类基准比排行榜更有价值：它诚实。