2026年3月,Google DeepMind 发布了一篇重磅论文——《Measuring Progress Toward AGI: A Cognitive Framework》(测量 AGI 进展:一个认知框架)。作者 Ryan Burnell 和 Oran Kelly 等人,做了一件行业早该有人做的事:给 AGI 建了一套科学的测量标准。
为什么这件事重要?因为目前的 AI 行业有一个尴尬的现实:每家公司都在说自己"接近 AGI",但没有人能清楚地定义"接近"到底是什么意思。
行业现状的三大痛点
第一,AGI 定义模糊。 OpenAI 说自己"内部认为已经实现了 AGI",Anthropic 说"我们在通往 AGI 的正确路径上",Google 说"AGI 比大多数人预期的更近"。但大家说的是同一个东西吗?没有标准,这些话就只是 PR。
第二,现有 benchmark 太窄。 MMLU、HumanEval、MATH 这些榜单测的都是特定能力。一个模型在 MMLU 上拿到 90 分,只能说明它的知识问答能力强,不能说明它"通用智能"。就像一个数学竞赛冠军不一定能在社交场合正常交流。
第三,缺乏人类基线对比。 AI 跑分再高,不跟真实的人类表现对比,数字就是空转。GPT-5.4 在逻辑推理上得了 95 分——95 分是什么水平?比大学教授强还是比高中生强?不知道。
DeepMind 这篇论文,正是要系统性地解决这三个问题。
认知分类法:用心理学拆解"智能"
论文的核心贡献是提出了一个认知分类法(Cognitive Taxonomy),从心理学、神经科学和认知科学的几十年研究中,提炼出 10 个构成"通用智能"的认知维度:
1. 感知(Perception)
从环境中提取和处理感官信息的能力。包括视觉、听觉、多模态感知。当前 AI 在这个维度上表现较强——GPT-5.4 和 Gemini 3 都能准确理解图像、音频和视频。
2. 生成(Generation)
产出文本、语音、图像、代码等内容的能力。这是当前大模型的核心强项,也是用户感知最直接的能力。
3. 注意力(Attention)
选择性聚焦相关信息、忽略干扰的能力。包括持续注意力、选择性注意力和分配注意力。当前 AI 在处理超长上下文时仍然存在"中间遗忘"问题——200K token 的上下文窗口不代表每个 token 都被平等对待。
4. 学习(Learning)
获取新知识和技能的能力。论文将其细分为六个子类:概念形成、联想学习、强化学习、观察学习、程序性学习和语言学习。特别值得注意的是,论文强调了部署后持续学习的重要性——当前大多数模型在部署后是"冻结"的,无法从新的交互中持续学习。
5. 记忆(Memory)
存储和检索信息的能力。涵盖语义记忆(知识)、情景记忆(经历)、程序性记忆(技能)和前瞻性记忆(未来计划),以及一个容易被忽视的能力——遗忘。是的,遗忘也是一种认知能力。过时的信息如果不被遗忘,会干扰当前决策。
6. 推理(Reasoning)
通过逻辑推断得出结论的能力。包括演绎推理、归纳推理、溯因推理、类比推理和数学推理。论文特别指出,要区分真正的推理和自动模式匹配——一个模型因为在训练数据中见过类似问题而给出正确答案,不等于它真的在"推理"。
7. 元认知(Metacognition)
监控和调节自身认知过程的能力。简单说就是**"知道自己知道什么,知道自己不知道什么"**。这是当前 AI 最弱的维度之一。大模型经常在不确定的时候依然自信满满地给出错误答案(幻觉问题的根源之一)。
8. 执行功能(Executive Functions)
包括规划、抑制和认知灵活性。规划是制定和执行多步骤方案;抑制是克制冲动反应(比如不在不确定时随意回答);认知灵活性是在不同任务或策略之间灵活切换。
9. 问题解决(Problem Solving)
综合运用感知、推理、规划、学习等多种能力找到有效解决方案。细分为流体推理、数学问题解决、算法问题解决、常识问题解决和知识发现。
10. 社会认知(Social Cognition)
处理和理解社会信息、在社交场景中适当回应的能力。包括心智理论(推断他人的信念和意图)、共情和社交规范理解。这是当前 AI 的另一个显著短板。
"锯齿状"能力:聚合分数的陷阱
论文提出了一个极其重要的概念:当前 AI 系统的能力是**"锯齿状"(Jagged)**的。
什么意思?一个模型可能在逻辑推理上达到人类 95th 百分位(超过 95% 的人类),但在社会认知上只有 30th 百分位(低于 70% 的人类)。如果你用一个聚合分数来描述这个模型,比如"综合能力 75 分",你会完全掩盖这种极端不平衡。
这就是为什么论文提出用**雷达图(Radar Chart)**来可视化认知画像——10 个维度各占一个轴,一眼就能看出哪里强、哪里弱。
三阶段评估协议
为了把认知分类法落地,论文设计了一个严谨的三阶段评估流程:
Stage 1:认知评估
设计针对每个认知维度的测试任务。关键要求:
- 任务必须能隔离特定认知能力(不能一个任务混测多个维度)
- 使用 held-out 测试集(防止数据污染)
- 覆盖所有 10 个维度
Stage 2:人类基线
在同一套任务上收集人类表现数据。要求样本具有人口统计学代表性(不能只找 CS 博士来测,要包括各行各业、各年龄段的成人)。
Stage 3:认知画像
将 AI 系统的表现映射到人类分布上,生成认知画像:
- 任一维度低于人类中位数 → 该维度存在显著短板,实际场景大概率翻车
- 全部 10 维高于中位数 → 能匹配至少 50% 的人类表现,多数场景可用
- 全部 10 维达到 99th 百分位 → 接近人类最高水平
"小镇考生困境":防止作弊
论文提出了一个精妙的类比——"小镇考生困境"(Small Town Test-taker Dilemma)。
想象一个小镇,SAT 考试的题目每年都一样。镇上的学生年年拿高分,不是因为他们更聪明,而是因为他们提前知道答案。
当前 AI 面临同样的问题。如果训练数据中包含了 benchmark 的答案,高分就不代表真正的认知能力,只代表记忆力好。这就是为什么论文强调使用 held-out 测试集——测试题必须是模型从未见过的。
与 Levels of AGI 框架的关系
这篇论文是 DeepMind 2023 年提出的 "Levels of AGI" 框架的自然延伸。那个框架定义了 AGI 的 5 个性能等级:
| 等级 | 性能水平 | 类比 |
|---|---|---|
| Level 1 | Emerging | 等同或略超非专业人类 |
| Level 2 | Competent | 等同 50th 百分位专业人类 |
| Level 3 | Expert | 等同 90th 百分位专业人类 |
| Level 4 | Virtuoso | 等同 99th 百分位专业人类 |
| Level 5 | Superhuman | 超越所有人类 |
Levels of AGI 框架回答了"AGI 有哪些等级"的问题,而这篇新论文回答了"怎么测量你在哪个等级"的问题。 前者是刻度,后者是尺子。
Kaggle 黑客松:让社区一起造尺子
论文不只是理论。DeepMind 同步在 Kaggle 上发起了一个黑客松,邀请全球研究者为 5 个最缺评测工具的认知维度设计 benchmark:
- 学习 — 如何测试 AI 的持续学习能力?
- 元认知 — 如何验证 AI "知道自己不知道什么"?
- 注意力 — 如何科学地测量长上下文注意力分配?
- 执行功能 — 如何评估规划、抑制和灵活切换?
- 社会认知 — 如何测试 AI 理解社交规范和他人意图?
这 5 个维度之所以被选中,是因为现有的 benchmark 体系在这些方面的覆盖几乎为零。
论文的局限性
论文自身也坦诚承认了几个局限:
- 处理速度无法通过认知评估有效测量,但对实际部署至关重要
- 系统倾向(如风险偏好、价值观对齐)很难通过认知测试捕捉
- 创造力作为整体概念难以分解为单一维度
- 系统 vs 模型的边界不清:一个带搜索引擎的 AI 系统得高分,功劳该算模型还是工具?
- 构建效度(Construct Validity)问题:测试真的在测你想测的东西吗?
这篇论文对 AI 从业者意味着什么?
对研发团队: 不要再只盯着 MMLU 和 HumanEval 的分数了。你的模型在元认知和社会认知上是什么水平?这些维度决定了用户的真实体验。
对产品团队: 根据认知画像选模型。如果你的产品场景需要强社会认知(比如客服、心理咨询),不要选推理分最高的模型,选社会认知维度最强的。
对投资者和决策者: 当一家公司声称"我们的模型接近 AGI"时,要求他们出示认知画像。没有雷达图的 AGI 宣言,都是营销。
对整个行业: DeepMind 做的不是 AGI,是给 AGI 造了一把尺子。谁有尺子,谁定义游戏规则。 这就是为什么 Google 要做这件事——当你定义了 AGI 的测量标准,你就掌握了 AGI 竞赛的话语权。
论文链接: Measuring Progress Toward AGI: A Cognitive Framework
Kaggle 黑客松: Measuring progress toward AGI: Cognitive abilities