DeepMind CEO 访谈：人类离 AGI 只剩 4 年，只差最后 3 块拼图作者：老纪的技术唠嗑局楔子前几天（

作者：老纪的技术唠嗑局

楔子

前几天（4 月 29 日），Google DeepMind CEO、2024 年诺贝尔化学奖得主 Demis Hassabis 在一期播客节目《Agents, AGI & The Next Big Scientific Breakthrough》[1] 中，预测 AGI（通用人工智能）有望在 2030 年实现，并介绍了当前 AI 的几个致命短板。

下面这个就是原视频（强烈推荐一看）：

看完之后，我认为——这个简短的访谈，比近期的任何一场 AI 产品发布会，都更值得大家观看和思考。

不是因为发布了什么新模型，什么 benchmark 跑到了全宇宙第一。恰恰相反，Hassabis 花了大量时间讲一件事：现在的 AI，到底还差什么？

“A true general intelligence system shouldn't have that kind of jaggedness.”

一个真正的通用智能系统，不该有这种锯齿。

Hassabis 的答案不长，只有三个“小锯齿”，但每个缺陷都很致命：

持续学习（Continual Learning）：不能像人一样终身学习、不断更新知识
长程推理（Long-term Reasoning）：复杂逻辑链、多步骤规划能力极弱
真正的记忆（Memory）：不只靠上下文窗口，而是结构化、可索引的长期记忆

他直言因为这三个问题，还现在的 LLM 还只是 **“一半天使、一半智障”**。而前两个问题“长程记忆”和“持续学习”，都依赖于先解决第三个问题“真正的记忆”。

什么意思？虽然 AI 能拿国际数学奥赛金牌，但却可能会因为无法持久地记住历史会话和用户偏好，而在面对简单问题时，无法做出正确的决策。

接下来，我会把访谈里最核心的这几个问题，和大家聊上一聊~ 欢迎大家关注 OceanBase 社区公众号 “老纪的技术唠嗑局”，在这里，我们会持续为大家更新与 #AI 和 #Data 相关的技术内容~

一、暴力堆砌的上下文窗口 ≠ AI 记忆

大家一定都注意到了，最近各家大模型在比赛一件事：谁的上下文窗口更长。

从 4K 到 128K，到 100 万 token，到 1000 万 token。好像只要上下文足够长，什么问题都能塞进去解决。

然后 Hassabis 在访谈中算了一笔让大家一愣的账。现在最大的上下文窗口是 1000 万 token 对吧？听起来很厉害，但本质上是暴力堆砌记忆，就像《哆啦 A 梦》漫画里，大雄靠吃记忆面包来应付考试一样。

** **

Hassabis 的原话是 “100 万 token = 约 20 分钟视频。按这个换算，即使放大到 1000 万 token，也就 200 分钟的视觉信息”。如果大家仔细想想，对于一个需要理解你数天、数周、数月，甚至数年生活、工作习惯的 AI 助手来说，200 分钟算个啥？

而且现在的问题不只是容量。更重要的是——现在的做法是把**所有东西一股脑塞进 Context Window（上下文窗口）**，包括不重要的、错误的、过时的信息。每次对话本质上是无状态的。

关掉窗口，上一轮聊了什么，全没了。

Context Window 其实就相当于人脑里的 Working Memory，工作记忆。

人的工作记忆能同时装多少东西？答案是 7 个数字。比如让你背一个朋友的电话号码，其实能记住的也真就是 7 位的样子，不信可以试试看，因为如果位数再多，就该“溢出”了。

而大模型呢？已经做到 100 万 Token。按理说，模型的工作记忆比人大几十万倍，应该比人聪明几十万倍才对。

但，显然不是。

记忆的本质：海马体 & 持续学习

Hassabis 拿 AI 和人脑做了个对比，因为这位大佬读博士时研究的就是：海马体如何把新知识优雅地融入已有知识体系。

问题也恰恰就出现在这。AI 习惯把所有东西都塞进 Context Window 里，里面包含了不重要的东西、错的东西、过时的东西。看起来信息很多，其实是一团乱麻。

那人为什么 7 个数字的工作记忆就够用？

因为人脑背后还有另一套机制在工作。我们记得几年前的事，记得童年的事，记得几小时前发生的事。这些都不塞在工作记忆里，而是另一套系统，这套系统，就是刚刚提到的海马体，大脑里负责把新知识整合进已有知识库的那个部分。

Hassabis 在播客中介绍说，人脑在快速眼动睡眠（REM sleep）期间，会回放白天的经历，主动判断哪些值得记住、哪些应该遗忘，然后把有价值的经验”写入”长期记忆。

2013 年 DeepMind 那个名震一时的 DQN 算法（第一个在雅达利游戏上达到人类水平的深度强化学习系统），一个关键技术就是从这里借来的——**经验回放（experience replay）**，反复回放成功路径来学习。

这件事，放在 AI 领域，已经算是上古时期的了。这个把新东西融进旧知识库的过程，就是所谓的**持续学习（Continual Learning）**。

但到了 2026 年，AI 普遍还都没有真正做到这一点。

AI 海马体，应该长什么样子？

Hassabis 在播客的观点很清晰：AI 需要一套独立的、高效索引的记忆模块——能主动决定记住什么、遗忘什么。这是 AI Agent 在长时间维度可信赖地自主运行的前提条件。

换句话说，上下文窗口只是一张越摊越大的桌面。AI 真正缺的，是一颗海马体。

PowerMem

我参与的一个 PowerMem[2] 开源项目，就专门为 AI Agent 加上了这个“海马体”——一套能够持久化 & 持续学习的记忆系统。

它的思路和 Hassabis 描述的方向高度一致：

不是把所有对话都塞进上下文，而是从对话中提取关键事实，按工作记忆、短期记忆、长期记忆分层管理
引入艾宾浩斯遗忘曲线机制——用到的记忆会强化，长期不用的记忆会逐渐淡出，甚至自动清理（和 Hassabis 说的“主动决定记住什么、遗忘什么”异曲同工）
支持向量 + 全文 + 图谱三路混合检索，多 Agent 之间可以做记忆隔离和共享

而且有一个数据很直观。在长对话记忆基准测试 LOCOMO[3] 上：指标 PowerMem 全上下文方式准确率78.70%52.9% 检索 p95 延迟 1.44s17.12sToken 消耗**~0.9k**~26k 同样的任务，用 PowerMem 的 token 消耗只有全上下文方式的 18% （少了 82% 的 token），结果反而更准——因为，不是所有旧对话都有价值。

除了 PowerMem 之外，我们的另一个项目 seekdb M0[4] 也是专门为 AI Agent 设计的自进化的云记忆，支持一键接入，分享经验，自主学习和进化。

当然，PowerMem 和 seekdb M0 可能都还达不到 Hassabis 描述的那套人类大脑中“能在睡眠时回放和整合经验”的记忆系统终极形态。但探索和努力的方向肯定是对的：记忆，不该只靠暴力堆砌的上下文窗口硬撑。

二、模型蒸馏 —— 大模型有多强，六个月后的端侧设备就有多强

访谈中的另一个重要片段，是关于**模型蒸馏（Distillation）**。

主持人问了一个很多人都好奇的问题：”小模型到底能聪明到什么程度？蒸馏有没有理论极限？“

Hassabis 的回答很干脆：

“我不觉得我们已经碰到了信息论上的极限。至少目前没人知道有没有碰到。我们的假设是，一个前沿的 Pro 模型发布后，在半年到一年内，它的能力就能被压缩到非常小的、几乎可以跑在边缘设备上的模型里。”

他给了具体数字：蒸馏后的小模型可以达到前沿大模型 90-95% 的能力，成本仅约十分之一。

这不是远期展望，而是正在发生的。谷歌的 DeepMind 自家产品线就是这套逻辑：Gemini Pro（前沿旗舰）→ Flash（蒸馏后的消费级推理）→ Nano（端侧设备）。开源的 Gemma 4 模型发布两周半，下载量达到 4000 万次。

“小模型的价值不只是成本低。速度快同样会带来巨大的好处——你能迭代得更快，迭代速度赚回来的，远超那 10% 的能力差距。”

Hassabis 还特别提到了边缘场景的意义：“车载设备、智能穿戴设备、具身机器人……这些场景**不光需要效率，还需要隐私和安全”**。

“想象一下你家里的机器人，你会希望本地跑一个高效且强大的模型，只在特定场景下把任务委托给云端大模型。音频和视频流都在本地处理、数据留在本地——这是一个很好的终极状态。”

这话让我想到一个正在发生的趋势：当大模型的能力以 6-12 个月的周期“流”向端侧，一个很自然的问题浮现——端侧设备上，谁来给这些小模型提供数据底座？

它需要边缘设备上跑一个完整的传统数据库实例，同时还要让它支持向量检索、全文搜索、结构化查询。

这就是我参与的另一个项目 —— seekdb[5] 瞄准的方向。

seekdb 的服务器模式，只需要 1C2G 的资源，支持 pip install 一键安装、秒级启动。
嵌入式模式甚至可以作为 Python / JS / TS 的动态库，直接运行在应用程序内部，不需要独立数据库进程，几乎没有任何资源开销。
同时塞进去了向量检索、全文搜索、JSON、GIS——一个引擎全包，兼容 MySQL 语法，学习成本极低。

关于 AI “从重到轻”的大趋势，我之前写过两篇文章来分析。这里不再继续展开，感兴趣的可以翻翻看~

Hassabis 的判断，会让人更加确信：端侧智能不是“未来某天的事”，它以 6 个月为周期在逼近。 那些能在极低资源开销下，提供完整 AI 数据能力的基础设施，很快就会从“可选”变成“刚需”。

三、AI 安全只写在 prompt 里，还远远不够

Hassabis 在访谈中花了不少篇幅谈安全。他的核心判断是：

“目前的 AI 系统在网络攻防方面已经相当强了。关键是要确保防御能力跑在攻击能力前面。”

他认为 AI 是典型的“双重用途”技术——既能加强防御，也能被利用来发现漏洞、自动化攻击。最紧迫的风险有两类：

恶意人类行为者利用 AI 发动攻击
AI 自主性增强带来的长期对齐问题

第二点尤其值得警惕。随着 AI Agent 越来越能“自己做判断”，“它自己做了个判断，然后把你的数据库和备份都给搞没了”这类事情，已经不只是理论推演。

昨天发布的公众号文章 700 万人围观 AI 删库跑路，罪魁祸首写下奇葩检讨，就是一个血淋淋的案例。这也是为什么 Hassabis 说“技术狂奔的同时，底线不能丢”。但“AI 的安全底线”不能只写在 prompt 里，一部分责任也需要落到底层基础设施的身上。

例如在数据库层面，就应该为 AI 安全专门设计多道安全防线：

**数据分支（Branch / Fork）**：像 Git 一样。AI Agent 在 Fork 出来的分支上随便实验，主库 / 主表纹丝不动。改好了 MERGE 回去，改砸了直接扔掉。
回收站 + 闪回：被 DROP 的表暂存回收站，FLASHBACK 一键捞回。闪回查询还可以看任意历史时间点的数据快照。
主备物理隔离：备份和主库跑在独立的存储集群上，不在同一个“爆炸半径”里。