去年开始LLM非常火爆,各路科技公司、资金都在all in LLM.
我现在是人工智能专业大二的本科生,对NLP、CV的了解只能算是浅薄。
但我的直觉告诉我:现在这些靠预测 token 运行的大语言模型,根本不是真正的人工智能。它们更像是一个阶段性产物——可以说掌握了某种"抽象语言能力",但绝不等于"智能"。
LLMs 说到底,是在海量文本上用监督学习或强化学习训练出来的序列建模工具。它们看起来很厉害,能写、能聊、能编程,但所有这些能力都局限在符号层面——本质上只是在模仿人类语言的统计规律(再被强化学习"优化"一下准确率而已)。
但问题在于:语言只是人类对世界的高度压缩和抽象,是一种"文明捷径",而不是世界本身。LLM 所做的,仅仅是猜下一个 token 是什么,完全不关心这个词背后对应的真实状态、物理规律、因果链条,或者最基本的常识。它们从没"看见"过一个球滚下斜坡,也没"体验"过重力、摩擦、遮挡……而这些,恰恰是构建可靠、可泛化、能规划的智能所必需的地基。
真正的人工智能,不该像一只鹦鹉,只会复述人类语言,用概率去"模仿";而应该像一只松鼠——通过感知世界、推导规律,最终能做出决策。
所以我总觉得,光靠文本数据,不管模型多大、算力多强,都不可能真正理解世界。未来的智能必须建立在世界模型(world model)之上——从视觉、动作、声音等多模态信号中学习环境的动态结构,在状态空间里做预测和推理,而不是在符号序列里做概率插值。
而且,就连"视觉"也不该被简单拆解成 token。现在的多模态模型喜欢把图像切成 patch,当成视觉 token 来处理,好像每个像素块都同等重要。但真实世界不是这样运作的——我们看东西时,关注的是物体、关系、运动、意图,而不是像素的排列组合。视觉的理解应该建立在对结构的建模上,而不是对像素的概率拟合。AI 要学会"看",而不是"数像素"。
后来我去看了 Yann LeCun 提出的 JEPA(Joint Embedding Predictive Architecture),发现他的核心思路跟我模糊的想法几乎一致:用自监督学习去构建可预测的抽象表征,而不是执着于生成像素或 token。我特别认同这个方向。
有一阵子,我还真动过念头想投身 world model 的研究——毕竟这种"直觉"好像挺珍贵的。但冷静下来一想:我的数理基础实在不够扎实,真要从零开始搞底层架构,大概率连门都摸不到。
直到前几天,我听了张小珺采访谢赛宁那期七小时的播客,越听越觉得——他说的跟我想的也太像了吧。
他对LLM的判断跟我几乎一模一样,但他的认知比我系统得多。他说整个硅谷都被语言token的狂热笼罩了(原话是"Silicon Valley is very LLM-pilled"),所有人都觉得把token预测做到极致就等于智能。但LLM本质上就是一个token生成器——语言模型是predict next token,世界模型是predict next state。前者在词的序列上做概率接龙,后者在真实世界的状态空间里做因果预测,能真正支撑规划和决策。因此,语言模型的Scaling Law里面是有水分的——它不需要真正理解世界,就能在各种benchmark上刷出好看的分数,因为那些测试本身就是语言维度的。但你让它理解一个球为什么会从桌子上滚下来?它做不到。它可以"谈论"重力,但它不"理解"重力。
他说,他非常担心"语言对视觉的污染",而且这件事已经在发生了。现在所有多模态模型都在用语言的方式去处理视觉——把图像切成patch、当token喂给语言模型,用语言的框架去"理解"视觉。但视觉本身的信息密度、结构、连续性,跟离散的语言token完全是两回事。用语言去统治视觉,等于是用一个低维的压缩格式去强行编码高维的真实世界,丢掉的远比保留的多。
他还有一个很形象的说法:LLM的训练本质上是"下载互联网"——把人类写在网上的文字喂给模型;而世界模型要做的是"下载人类"——不是人类说了什么,而是人类怎么感知、怎么行动、怎么在物理世界中生存。一个是读了所有书但从没出过门的人,一个是在真实世界里长大的孩子。
听完整期播客,我发现自己之前那些模模糊糊的直觉——语言不等于智能、token预测到不了真正的理解、世界模型才是未来——他全都想到了,而且想得比我深得多、清楚得多。
然后我随手一查才发现:就在一个月前,谢赛宁和 LeCun 已经联手创办了 AMI Labs,两个人都从原来的公司离职,正式下场做 world model 了。
原来我瞎琢磨的那个方向,这两位科学家早就想得更加清楚、也已经投身去做了!
好吧好吧,那就放心交给他们去改变世界吧,我先学好我的专业课就好 😂😂