LLM 的路走到头了？LeCun、李飞飞和 OpenAI 为何都押注「世界模型」MIT Tech Review 深度报道

一个 AI 能写出普利策级别的文章，也能帮你 debug 三小时的代码。但你让它去叠衣服？它连洗衣机在哪都找不到。

这听起来像是个笑话，但恰恰是目前 AI 行业最大的尴尬。

2026 年 4 月，MIT Technology Review 发了一篇深度报道，梳理了一个正在成型的共识：大语言模型（LLM）可能并不是 AI 的终点。真正的答案，是一个叫做「世界模型」（World Model）的东西。

而且，已经有一批顶级研究者在用行动投票了。

LLM 的「脆弱理解」

LLM 看起来很懂世界。你问它"把杯子从桌上推下去会怎样"，它会告诉你"杯子会掉到地上碎掉"。听起来没问题对吧？

但研究揭示了另一面：LLM 对世界的理解是"脆"的。

有个很有意思的实验。研究者用模拟纽约出租车数据训练了一个语言模型，让它在曼哈顿两点之间导航。正常路线？没问题。但如果要求它绕路——比如避开某条拥堵的街道——它就完全懵了。

这说明什么？LLM 并不是真的"理解"了纽约的街道布局。它只是记住了训练数据中出现的路线模式。一旦场景稍微偏离训练分布，它就失效了。

一个真正拥有世界模型的智能体，应该像人一样：脑子里有一张纽约地图，能推演出"如果走这条街会怎样"，然后做出判断。

顶级玩家在做什么

Yann LeCun 离开 Meta 创业了。 这位图灵奖得主一直认为 LLM 不是 AI 的终极形态。他离开后创办了一家新公司，核心方向就是世界模型。这大概是 2026 年 AI 行业最大的离职事件之一。

李飞飞的 World Labs。 她从斯坦福出来创办的 World Labs，正在构建能生成可交互 3D 虚拟环境的模型——你给它文字、图片甚至视频，它就能生成一个你可以走进去的三维世界。她的愿景是让机器人拥有"空间智能"（Spatial Intelligence），能像人一样理解和操作物理世界。

Google DeepMind 也在做类似的事。 他们的重点是结合文本和图片生成 3D 环境。

OpenAI 悄悄转了方向。 Sora 视频生成应用关闭后，资源被重新分配到了"长期世界模拟研究"。这几乎等于公开承认：视频生成只是世界模型的一个副产品，真正的大目标是模拟整个物理世界。

还有一个你可能想不到的例子——Pokémon Go 的开发者正在用玩家收集的数十亿张图像构建世界模型，目标是用来引导送货机器人按时送达披萨。从玩游戏到送外卖，这跨度确实不小。

世界模型到底是什么

简单说，世界模型就是 AI 脑子里的"世界模拟器"。

人类大脑就是这样工作的。当你伸手去拿桌上的咖啡杯时，你的大脑已经提前"模拟"了这个动作的结果——杯子会移动、咖啡可能会洒、手指需要施加多大的力。这种内部模拟能力让我们能在行动前预测后果。

LLM 没有这个能力。它只能基于过去的文本模式做预测，无法真正模拟"如果我这么做会发生什么"。

世界模型要解决的正是这个问题：让 AI 不仅能预测下一个词，还能预测下一个状态——在物理世界中的状态。

为什么现在是关键节点

几个因素叠加在了一起：

一是 LLM 的能力边界越来越清晰。参数量再大，解决不了"脆弱理解"的问题。scaling law 的红利在消退。

二是机器人行业在等。人形机器人、自动驾驶、物流机器人——这些都需要能在物理世界中稳健决策的 AI，而不是只会聊天的模型。

三是技术条件开始成熟。3D 生成、视频理解、具身智能（Embodied AI）都在进步，为构建世界模型提供了基础模块。

说真的，这事儿靠谱吗

世界模型听起来很美好，但挑战也是实打实的。

物理世界的复杂度远超文本世界。文本是离散的、有限的，而物理世界是连续的、无限的。让 AI 理解一个杯子是一回事，让它在厨房这种混乱的真实环境中完成"拿杯子→倒水→递给客人"这一连串动作，是另一回事。

另外，训练世界模型需要什么样的数据？怎么评估它"理解"了世界？这些问题目前都没有标准答案。

但反过来想，LLM 在 2017 年 Transformer 论文发表时，也被很多人认为是"又一个学术概念"。谁也没想到它会在五年后改变整个行业。

世界模型会不会是下一个 Transformer 时刻？没人知道。但几乎所有最聪明的人都在往这个方向走——这件事本身就值得你关注。

你怎么看？评论区聊聊。

来源： MIT Technology Review, "World models", 2026-04-21, www.technologyreview.com/2026/04/21/…