评分 7.7 · 来源:DeepMind Blog · 发布于 2026-03-17
评分依据:首次系统性将认知科学框架应用于 AGI 能力测量
要点
Google DeepMind 发布论文「Measuring Progress Toward AGI:A Cognitive Taxonomy」,提出基于认知科学的 AGI 进展测量框架。核心贡献是定义了 10 项关键认知能力:感知、生成、注意力、学习、记忆、推理、元认知、执行功能、问题求解和社会认知。这不是简单的任务列表,而是从心理学和神经科学数十年研究中提炼的认知维度。
评估协议分三阶段:首先在广泛认知任务上测试 AI 系统(使用 held-out 防止数据污染),然后收集具有人口代表性的成人基线,最后将 AI 表现映射到人类能力的分布上。DeepMind 同时联合 Kaggle 启动 20 万美元奖金的社区挑战赛,聚焦学习、元认知、注意力、执行功能和社会认知五个评估缺口最大的方向。
🤖 AI 点评
AGI 评测领域长期被「刷分 benchmark」主导——模型在特定任务上超越人类,但没人知道这到底意味着什么。DeepMind 这次做了一件基本功:回归认知科学的基本面,先定义「我们在测什么」,再讨论「怎么测」。10 项能力的框架本身不是新发现,但将其系统性地组织为可操作的评测协议,并投入 20 万美元推动社区共建,这是从「竞赛」到「科学」的范式转换。社区最终能不能真的构建出有效的认知评测基准,才是真正的考验。