一个 AI 能写出普利策级别的文章,也能帮你 debug 三小时的代码。但你让它去叠衣服?它连洗衣机在哪都找不到。
这听起来像是个笑话,但恰恰是目前 AI 行业最大的尴尬。
2026 年 4 月,MIT Technology Review 发了一篇深度报道,梳理了一个正在成型的共识:大语言模型(LLM)可能并不是 AI 的终点。真正的答案,是一个叫做「世界模型」(World Model)的东西。
而且,已经有一批顶级研究者在用行动投票了。
LLM 的「脆弱理解」
LLM 看起来很懂世界。你问它"把杯子从桌上推下去会怎样",它会告诉你"杯子会掉到地上碎掉"。听起来没问题对吧?
但研究揭示了另一面:LLM 对世界的理解是"脆"的。
有个很有意思的实验。研究者用模拟纽约出租车数据训练了一个语言模型,让它在曼哈顿两点之间导航。正常路线?没问题。但如果要求它绕路——比如避开某条拥堵的街道——它就完全懵了。
这说明什么?LLM 并不是真的"理解"了纽约的街道布局。它只是记住了训练数据中出现的路线模式。一旦场景稍微偏离训练分布,它就失效了。
一个真正拥有世界模型的智能体,应该像人一样:脑子里有一张纽约地图,能推演出"如果走这条街会怎样",然后做出判断。
顶级玩家在做什么
Yann LeCun 离开 Meta 创业了。 这位图灵奖得主一直认为 LLM 不是 AI 的终极形态。他离开后创办了一家新公司,核心方向就是世界模型。这大概是 2026 年 AI 行业最大的离职事件之一。
李飞飞的 World Labs。 她从斯坦福出来创办的 World Labs,正在构建能生成可交互 3D 虚拟环境的模型——你给它文字、图片甚至视频,它就能生成一个你可以走进去的三维世界。她的愿景是让机器人拥有"空间智能"(Spatial Intelligence),能像人一样理解和操作物理世界。
Google DeepMind 也在做类似的事。 他们的重点是结合文本和图片生成 3D 环境。
OpenAI 悄悄转了方向。 Sora 视频生成应用关闭后,资源被重新分配到了"长期世界模拟研究"。这几乎等于公开承认:视频生成只是世界模型的一个副产品,真正的大目标是模拟整个物理世界。
还有一个你可能想不到的例子——Pokémon Go 的开发者正在用玩家收集的数十亿张图像构建世界模型,目标是用来引导送货机器人按时送达披萨。从玩游戏到送外卖,这跨度确实不小。
世界模型到底是什么
简单说,世界模型就是 AI 脑子里的"世界模拟器"。
人类大脑就是这样工作的。当你伸手去拿桌上的咖啡杯时,你的大脑已经提前"模拟"了这个动作的结果——杯子会移动、咖啡可能会洒、手指需要施加多大的力。这种内部模拟能力让我们能在行动前预测后果。
LLM 没有这个能力。它只能基于过去的文本模式做预测,无法真正模拟"如果我这么做会发生什么"。
世界模型要解决的正是这个问题:让 AI 不仅能预测下一个词,还能预测下一个状态——在物理世界中的状态。
为什么现在是关键节点
几个因素叠加在了一起:
一是 LLM 的能力边界越来越清晰。参数量再大,解决不了"脆弱理解"的问题。scaling law 的红利在消退。
二是机器人行业在等。人形机器人、自动驾驶、物流机器人——这些都需要能在物理世界中稳健决策的 AI,而不是只会聊天的模型。
三是技术条件开始成熟。3D 生成、视频理解、具身智能(Embodied AI)都在进步,为构建世界模型提供了基础模块。
说真的,这事儿靠谱吗
世界模型听起来很美好,但挑战也是实打实的。
物理世界的复杂度远超文本世界。文本是离散的、有限的,而物理世界是连续的、无限的。让 AI 理解一个杯子是一回事,让它在厨房这种混乱的真实环境中完成"拿杯子→倒水→递给客人"这一连串动作,是另一回事。
另外,训练世界模型需要什么样的数据?怎么评估它"理解"了世界?这些问题目前都没有标准答案。
但反过来想,LLM 在 2017 年 Transformer 论文发表时,也被很多人认为是"又一个学术概念"。谁也没想到它会在五年后改变整个行业。
世界模型会不会是下一个 Transformer 时刻?没人知道。但几乎所有最聪明的人都在往这个方向走——这件事本身就值得你关注。
你怎么看?评论区聊聊。
来源: MIT Technology Review, "World models", 2026-04-21, www.technologyreview.com/2026/04/21/…