大模型不是唯一答案:LeCun用1500万参数证明,小而美的世界模型同样能理解物理世界

0 阅读7分钟

当所有人都在卷大模型、拼算力的时候,图灵奖得主 Yann LeCun 的团队用一篇论文证明了另一条路:1500 万参数、单 GPU 训练、1 秒完成规划——而且这个"小家伙"居然能检测出物理世界中的"不可能事件"。

lewm.gif

世界模型最大的坑:表达崩塌

LeCun 这些年一直在推一件事:别再死磕生成式模型了,世界模型才是通向 AGI 的路。

他提出的 JEPA(Joint Embedding Predictive Architecture)思路很干净——不在像素层面重建世界,而是把画面压缩到一个低维潜在空间里,在里面预测未来状态。省算力,还能学到真正有用的特征。

但 JEPA 有个要命的毛病:表达崩塌

模型训练着训练着就会发现一个"捷径"——把所有输入都映射到同一个向量,预测损失瞬间降到零。模型看起来收敛了,实际上已经废了。就像一个学生发现把所有题都写同一个答案也能拿分,就再也不动脑子了。

之前大家怎么对付这个问题的呢?

各种补丁往上打:指数移动平均(EMA)、停止梯度(Stop-Gradient)、冻结预训练的 DINOv2 编码器、6 到 7 个损失函数项拼在一起……

要么治标不治本,要么引入新的不稳定性,要么直接锁死了模型上限。

PLDM 是目前唯一一个尝试端到端从像素训练的 JEPA 方法,但训练极度不稳定,7 个损失函数要同时调,简直是在走钢丝。

所以当 LeWorldModel 这篇论文出来的时候,我第一反应是:这帮人怎么做到的?


砍到只剩两个损失函数

答案出奇地简单。

LeWM 的整个训练目标就长这样:

L_LeWM = L_pred + λ × SIGReg(Z)

两个项。一个预测损失,一个正则化。完事了。

预测损失

普通的 MSE,让模型学会"执行动作 a 之后世界会变成什么样"。没什么好说的。

SIGReg:逼着嵌入服从高斯分布

这才是重点。

SIGReg 做的事情用一句话说清楚:强制潜在空间的嵌入服从标准高斯分布。

原理基于 Cramér-Wold 定理——你没法直接在高维空间里检验"一坨向量是不是高斯分布",但如果你把它们投影到足够多的一维方向上,每个投影都是高斯的,那整体就是高斯的。

SIGReg 的实现步骤:

  1. 随机生成 M=1024 个方向
  2. 把嵌入投影到这些方向上
  3. 在每个投影上计算 Epps-Pulley 正态性检验统计量
  4. 优化这些统计量,逼着分布逼近高斯

为什么能防崩塌?

想一下——如果编码器偷懒,把所有画面映射到同一个点,嵌入就是一个退化分布,根本不是高斯。如果编码器只用少数几个维度编码信息,分布就会严重偏离各向同性。

SIGReg 卡死了这两条路,编码器只能老老实实地学出一种信息丰富、分布均匀的表示。

没有 EMA,没有 Stop-Gradient,没有预训练编码器。 就一个正则化项,把之前所有"补丁"都替代了。

可调的超参数从 PLDM 的 6 个砍到了 1 个(就是 λ),甚至可以用二分搜索自动找最优值。

模型长什么样

就两个组件,加起来 1500 万参数

  • 编码器:ViT-tiny,patch size=14,12 层,3 个注意力头,隐藏维度 192(~5M 参数)
  • 预测器:6 层 Transformer,通过 AdaLN 注入动作信息(~10M 参数)

一张 L40S,跑几个小时,训练完。


1 秒规划,48 倍加速

但让我真正觉得"这东西能打"的,不是训练有多简单,而是规划速度

LeWM 做规划的时候,先把起始画面和目标画面各编码成一个 192 维的向量,然后用交叉熵方法(CEM)在潜在空间里搜索最优动作序列。

关键数字:每帧只编码成 1 个 192 维 token,而 DINO-WM 要编码几万个 token。信息压缩比差了大约 200 倍

直接看结果:

模型参数量规划时间训练资源防崩塌方式
LeWM~15M~1 秒单 GPUSIGReg
DINO-WM亿级+~47 秒多 GPU 集群冻结 DINOv2
PLDM~15M~1 秒单 GPUVICReg(不稳定)

在 Push-T(2D 推箱子)上,LeWM 只用像素输入,居然赢了 DINO-WM——即使后者额外使用了本体感受输入(关节角度之类的内部状态信息)。

换句话说,LeWM 光从画面里就学到了足够的信息来做决策,不需要额外"作弊"。

当然也有短板。在视觉复杂的 3D OGBench-Cube 任务上,DINO-WM 还是更强——DINOv2毕竟在 1.24 亿张图片上预训练过,视觉先验确实更丰富。在维度很低的 Two-Room 导航任务上,LeWM 反而翻车了,作者猜测是高斯先验在低维任务上"过度约束"了表示空间。


这个模型居然会"惊讶"

这篇论文里我最喜欢的一组实验,跟规划性能无关,而是关于物理理解

从潜在空间里"读出"物理量

团队训练了一些轻量级的探针网络,尝试从 LeWM 的嵌入中预测智能体位置、方块位置、方块角度。

结果:

物理量LeWMPLDMDINO-WM
智能体位置r=0.998r=0.993r=0.999
方块位置r=0.999r=0.994r=0.999
方块角度r=0.990r=0.972r=0.995

1500 万参数,没经过任何预训练,从像素直接学,物理量的预测精度跟用了上亿参数 DINOv2 的方案几乎一样。

它能区分"合理"和"不可能"

更有意思的实验:违背期望检测

给模型看三段视频,然后看"惊讶值"怎么变:

  • 正常轨迹 → 惊讶值很低(意料之中)
  • 物体变色 → 惊讶值略高(画面变了,但物理上没问题)
  • 物体瞬移 → 惊讶值直接飙升(违反物理定律)

它不是在记忆视觉模式。它能区分"看起来不一样但物理上合理"和"看起来正常但物理上不可能"。

这让我想到一个更深层的问题:如果一个小小的潜在空间就能编码物理规律,那我们是不是不需要那么大的模型就能让 AI 理解世界?


JEPA 这条路的拼图

顺便理一下 LeCun 这条线:

2023 · I-JEPA         图像自监督学习
2024 · V-JEPA         扩展到视频
2025 · V-JEPA 2       百万小时视频预训练
2025 · LeJEPA         SIGReg 理论框架
2026 · LeWorldModel   首个稳定端到端 JEPA 世界模型

之前的 JEPA 方法要么冻结编码器(放弃端到端),要么靠一堆 trick 勉强稳定(像 PLDM)。LeWM 是第一个真正做到"从像素开始、端到端训练、稳定收敛、不用任何 trick"的。


为什么这件事很重要

世界模型不再是"大厂专属"了。

之前做世界模型研究,要么依赖 DINOv2 这种基础模型(你得有算力预训练),要么在训练稳定性上痛苦挣扎。LeWM 把门槛降到了"一张 GPU、几小时、调一个参数"。

"小而美"被验证了。

行业趋势是什么都往大了做——更多参数、更多数据、更多算力。LeWM 提供了一个反例:1500 万参数,不用预训练,从像素直接学,物理理解跟亿级模型差不多。模型大小不是瓶颈,至少在某些场景下不是。

SIGReg 可能比 LeWM 本身更重要。

SIGReg 是一个通用正则化方法,理论上可以应用到任何需要学嵌入的任务上。如果它真的像论文声称的那样稳定有效,影响范围远不止世界模型。


论文和代码都已开源: