DeepMind 给 AGI 造了一把尺子：认知框架深度解读2026年3月，Google DeepMind 发布了一篇重

2026年3月，Google DeepMind 发布了一篇重磅论文——《Measuring Progress Toward AGI: A Cognitive Framework》（测量 AGI 进展：一个认知框架）。作者 Ryan Burnell 和 Oran Kelly 等人，做了一件行业早该有人做的事：给 AGI 建了一套科学的测量标准。

为什么这件事重要？因为目前的 AI 行业有一个尴尬的现实：每家公司都在说自己"接近 AGI"，但没有人能清楚地定义"接近"到底是什么意思。

行业现状的三大痛点

第一，AGI 定义模糊。 OpenAI 说自己"内部认为已经实现了 AGI"，Anthropic 说"我们在通往 AGI 的正确路径上"，Google 说"AGI 比大多数人预期的更近"。但大家说的是同一个东西吗？没有标准，这些话就只是 PR。

第二，现有 benchmark 太窄。 MMLU、HumanEval、MATH 这些榜单测的都是特定能力。一个模型在 MMLU 上拿到 90 分，只能说明它的知识问答能力强，不能说明它"通用智能"。就像一个数学竞赛冠军不一定能在社交场合正常交流。

第三，缺乏人类基线对比。 AI 跑分再高，不跟真实的人类表现对比，数字就是空转。GPT-5.4 在逻辑推理上得了 95 分——95 分是什么水平？比大学教授强还是比高中生强？不知道。

DeepMind 这篇论文，正是要系统性地解决这三个问题。

认知分类法：用心理学拆解"智能"

论文的核心贡献是提出了一个认知分类法（Cognitive Taxonomy），从心理学、神经科学和认知科学的几十年研究中，提炼出 10 个构成"通用智能"的认知维度：

1. 感知（Perception）

从环境中提取和处理感官信息的能力。包括视觉、听觉、多模态感知。当前 AI 在这个维度上表现较强——GPT-5.4 和 Gemini 3 都能准确理解图像、音频和视频。

2. 生成（Generation）

产出文本、语音、图像、代码等内容的能力。这是当前大模型的核心强项，也是用户感知最直接的能力。

3. 注意力（Attention）

选择性聚焦相关信息、忽略干扰的能力。包括持续注意力、选择性注意力和分配注意力。当前 AI 在处理超长上下文时仍然存在"中间遗忘"问题——200K token 的上下文窗口不代表每个 token 都被平等对待。

4. 学习（Learning）

获取新知识和技能的能力。论文将其细分为六个子类：概念形成、联想学习、强化学习、观察学习、程序性学习和语言学习。特别值得注意的是，论文强调了部署后持续学习的重要性——当前大多数模型在部署后是"冻结"的，无法从新的交互中持续学习。

5. 记忆（Memory）

存储和检索信息的能力。涵盖语义记忆（知识）、情景记忆（经历）、程序性记忆（技能）和前瞻性记忆（未来计划），以及一个容易被忽视的能力——遗忘。是的，遗忘也是一种认知能力。过时的信息如果不被遗忘，会干扰当前决策。

6. 推理（Reasoning）

通过逻辑推断得出结论的能力。包括演绎推理、归纳推理、溯因推理、类比推理和数学推理。论文特别指出，要区分真正的推理和自动模式匹配——一个模型因为在训练数据中见过类似问题而给出正确答案，不等于它真的在"推理"。

7. 元认知（Metacognition）

监控和调节自身认知过程的能力。简单说就是**"知道自己知道什么，知道自己不知道什么"**。这是当前 AI 最弱的维度之一。大模型经常在不确定的时候依然自信满满地给出错误答案（幻觉问题的根源之一）。

8. 执行功能（Executive Functions）

包括规划、抑制和认知灵活性。规划是制定和执行多步骤方案；抑制是克制冲动反应（比如不在不确定时随意回答）；认知灵活性是在不同任务或策略之间灵活切换。

9. 问题解决（Problem Solving）

综合运用感知、推理、规划、学习等多种能力找到有效解决方案。细分为流体推理、数学问题解决、算法问题解决、常识问题解决和知识发现。

10. 社会认知（Social Cognition）

处理和理解社会信息、在社交场景中适当回应的能力。包括心智理论（推断他人的信念和意图）、共情和社交规范理解。这是当前 AI 的另一个显著短板。

"锯齿状"能力：聚合分数的陷阱

论文提出了一个极其重要的概念：当前 AI 系统的能力是**"锯齿状"（Jagged）**的。

什么意思？一个模型可能在逻辑推理上达到人类 95th 百分位（超过 95% 的人类），但在社会认知上只有 30th 百分位（低于 70% 的人类）。如果你用一个聚合分数来描述这个模型，比如"综合能力 75 分"，你会完全掩盖这种极端不平衡。

这就是为什么论文提出用**雷达图（Radar Chart）**来可视化认知画像——10 个维度各占一个轴，一眼就能看出哪里强、哪里弱。

三阶段评估协议

为了把认知分类法落地，论文设计了一个严谨的三阶段评估流程：

Stage 1：认知评估

设计针对每个认知维度的测试任务。关键要求：

任务必须能隔离特定认知能力（不能一个任务混测多个维度）
使用 held-out 测试集（防止数据污染）
覆盖所有 10 个维度

Stage 2：人类基线

在同一套任务上收集人类表现数据。要求样本具有人口统计学代表性（不能只找 CS 博士来测，要包括各行各业、各年龄段的成人）。

Stage 3：认知画像

将 AI 系统的表现映射到人类分布上，生成认知画像：

任一维度低于人类中位数 → 该维度存在显著短板，实际场景大概率翻车
全部 10 维高于中位数 → 能匹配至少 50% 的人类表现，多数场景可用
全部 10 维达到 99th 百分位 → 接近人类最高水平

"小镇考生困境"：防止作弊

论文提出了一个精妙的类比——"小镇考生困境"（Small Town Test-taker Dilemma）。

想象一个小镇，SAT 考试的题目每年都一样。镇上的学生年年拿高分，不是因为他们更聪明，而是因为他们提前知道答案。

当前 AI 面临同样的问题。如果训练数据中包含了 benchmark 的答案，高分就不代表真正的认知能力，只代表记忆力好。这就是为什么论文强调使用 held-out 测试集——测试题必须是模型从未见过的。

与 Levels of AGI 框架的关系

这篇论文是 DeepMind 2023 年提出的 "Levels of AGI" 框架的自然延伸。那个框架定义了 AGI 的 5 个性能等级：

等级	性能水平	类比
Level 1	Emerging	等同或略超非专业人类
Level 2	Competent	等同 50th 百分位专业人类
Level 3	Expert	等同 90th 百分位专业人类
Level 4	Virtuoso	等同 99th 百分位专业人类
Level 5	Superhuman	超越所有人类

Levels of AGI 框架回答了"AGI 有哪些等级"的问题，而这篇新论文回答了"怎么测量你在哪个等级"的问题。 前者是刻度，后者是尺子。

Kaggle 黑客松：让社区一起造尺子

论文不只是理论。DeepMind 同步在 Kaggle 上发起了一个黑客松，邀请全球研究者为 5 个最缺评测工具的认知维度设计 benchmark：

学习 — 如何测试 AI 的持续学习能力？
元认知 — 如何验证 AI "知道自己不知道什么"？
注意力 — 如何科学地测量长上下文注意力分配？
执行功能 — 如何评估规划、抑制和灵活切换？
社会认知 — 如何测试 AI 理解社交规范和他人意图？

这 5 个维度之所以被选中，是因为现有的 benchmark 体系在这些方面的覆盖几乎为零。

论文的局限性

论文自身也坦诚承认了几个局限：

处理速度无法通过认知评估有效测量，但对实际部署至关重要
系统倾向（如风险偏好、价值观对齐）很难通过认知测试捕捉
创造力作为整体概念难以分解为单一维度
系统 vs 模型的边界不清：一个带搜索引擎的 AI 系统得高分，功劳该算模型还是工具？
构建效度（Construct Validity）问题：测试真的在测你想测的东西吗？

这篇论文对 AI 从业者意味着什么？

对研发团队： 不要再只盯着 MMLU 和 HumanEval 的分数了。你的模型在元认知和社会认知上是什么水平？这些维度决定了用户的真实体验。

对产品团队： 根据认知画像选模型。如果你的产品场景需要强社会认知（比如客服、心理咨询），不要选推理分最高的模型，选社会认知维度最强的。

对投资者和决策者： 当一家公司声称"我们的模型接近 AGI"时，要求他们出示认知画像。没有雷达图的 AGI 宣言，都是营销。

对整个行业： DeepMind 做的不是 AGI，是给 AGI 造了一把尺子。谁有尺子，谁定义游戏规则。 这就是为什么 Google 要做这件事——当你定义了 AGI 的测量标准，你就掌握了 AGI 竞赛的话语权。

论文链接： Measuring Progress Toward AGI: A Cognitive Framework

Kaggle 黑客松： Measuring progress toward AGI: Cognitive abilities