我为什么觉得LLM不是真正的AI（以及谢赛宁替我说清楚了）一个AI专业大二学生对LLM的反思：token预测不等于智能，

去年开始LLM非常火爆，各路科技公司、资金都在all in LLM.

我现在是人工智能专业大二的本科生，对NLP、CV的了解只能算是浅薄。

但我的直觉告诉我：现在这些靠预测 token 运行的大语言模型，根本不是真正的人工智能。它们更像是一个阶段性产物——可以说掌握了某种"抽象语言能力"，但绝不等于"智能"。

LLMs 说到底，是在海量文本上用监督学习或强化学习训练出来的序列建模工具。它们看起来很厉害，能写、能聊、能编程，但所有这些能力都局限在符号层面——本质上只是在模仿人类语言的统计规律（再被强化学习"优化"一下准确率而已）。

但问题在于：语言只是人类对世界的高度压缩和抽象，是一种"文明捷径"，而不是世界本身。LLM 所做的，仅仅是猜下一个 token 是什么，完全不关心这个词背后对应的真实状态、物理规律、因果链条，或者最基本的常识。它们从没"看见"过一个球滚下斜坡，也没"体验"过重力、摩擦、遮挡……而这些，恰恰是构建可靠、可泛化、能规划的智能所必需的地基。

真正的人工智能，不该像一只鹦鹉，只会复述人类语言，用概率去"模仿"；而应该像一只松鼠——通过感知世界、推导规律，最终能做出决策。

所以我总觉得，光靠文本数据，不管模型多大、算力多强，都不可能真正理解世界。未来的智能必须建立在世界模型（world model）之上——从视觉、动作、声音等多模态信号中学习环境的动态结构，在状态空间里做预测和推理，而不是在符号序列里做概率插值。

而且，就连"视觉"也不该被简单拆解成 token。现在的多模态模型喜欢把图像切成 patch，当成视觉 token 来处理，好像每个像素块都同等重要。但真实世界不是这样运作的——我们看东西时，关注的是物体、关系、运动、意图，而不是像素的排列组合。视觉的理解应该建立在对结构的建模上，而不是对像素的概率拟合。AI 要学会"看"，而不是"数像素"。

后来我去看了 Yann LeCun 提出的 JEPA（Joint Embedding Predictive Architecture），发现他的核心思路跟我模糊的想法几乎一致：用自监督学习去构建可预测的抽象表征，而不是执着于生成像素或 token。我特别认同这个方向。

有一阵子，我还真动过念头想投身 world model 的研究——毕竟这种"直觉"好像挺珍贵的。但冷静下来一想：我的数理基础实在不够扎实，真要从零开始搞底层架构，大概率连门都摸不到。

直到前几天，我听了张小珺采访谢赛宁那期七小时的播客，越听越觉得——他说的跟我想的也太像了吧。

他对LLM的判断跟我几乎一模一样，但他的认知比我系统得多。他说整个硅谷都被语言token的狂热笼罩了（原话是"Silicon Valley is very LLM-pilled"），所有人都觉得把token预测做到极致就等于智能。但LLM本质上就是一个token生成器——语言模型是predict next token，世界模型是predict next state。前者在词的序列上做概率接龙，后者在真实世界的状态空间里做因果预测，能真正支撑规划和决策。因此，语言模型的Scaling Law里面是有水分的——它不需要真正理解世界，就能在各种benchmark上刷出好看的分数，因为那些测试本身就是语言维度的。但你让它理解一个球为什么会从桌子上滚下来？它做不到。它可以"谈论"重力，但它不"理解"重力。

他说，他非常担心"语言对视觉的污染"，而且这件事已经在发生了。现在所有多模态模型都在用语言的方式去处理视觉——把图像切成patch、当token喂给语言模型，用语言的框架去"理解"视觉。但视觉本身的信息密度、结构、连续性，跟离散的语言token完全是两回事。用语言去统治视觉，等于是用一个低维的压缩格式去强行编码高维的真实世界，丢掉的远比保留的多。

他还有一个很形象的说法：LLM的训练本质上是"下载互联网"——把人类写在网上的文字喂给模型；而世界模型要做的是"下载人类"——不是人类说了什么，而是人类怎么感知、怎么行动、怎么在物理世界中生存。一个是读了所有书但从没出过门的人，一个是在真实世界里长大的孩子。

听完整期播客，我发现自己之前那些模模糊糊的直觉——语言不等于智能、token预测到不了真正的理解、世界模型才是未来——他全都想到了，而且想得比我深得多、清楚得多。

然后我随手一查才发现：就在一个月前，谢赛宁和 LeCun 已经联手创办了 AMI Labs，两个人都从原来的公司离职，正式下场做 world model 了。

原来我瞎琢磨的那个方向，这两位科学家早就想得更加清楚、也已经投身去做了！

好吧好吧，那就放心交给他们去改变世界吧，我先学好我的专业课就好 😂😂