当所有人都在卷大模型、拼算力的时候,图灵奖得主 Yann LeCun 的团队用一篇论文证明了另一条路:1500 万参数、单 GPU 训练、1 秒完成规划——而且这个"小家伙"居然能检测出物理世界中的"不可能事件"。
世界模型最大的坑:表达崩塌
LeCun 这些年一直在推一件事:别再死磕生成式模型了,世界模型才是通向 AGI 的路。
他提出的 JEPA(Joint Embedding Predictive Architecture)思路很干净——不在像素层面重建世界,而是把画面压缩到一个低维潜在空间里,在里面预测未来状态。省算力,还能学到真正有用的特征。
但 JEPA 有个要命的毛病:表达崩塌。
模型训练着训练着就会发现一个"捷径"——把所有输入都映射到同一个向量,预测损失瞬间降到零。模型看起来收敛了,实际上已经废了。就像一个学生发现把所有题都写同一个答案也能拿分,就再也不动脑子了。
之前大家怎么对付这个问题的呢?
各种补丁往上打:指数移动平均(EMA)、停止梯度(Stop-Gradient)、冻结预训练的 DINOv2 编码器、6 到 7 个损失函数项拼在一起……
要么治标不治本,要么引入新的不稳定性,要么直接锁死了模型上限。
PLDM 是目前唯一一个尝试端到端从像素训练的 JEPA 方法,但训练极度不稳定,7 个损失函数要同时调,简直是在走钢丝。
所以当 LeWorldModel 这篇论文出来的时候,我第一反应是:这帮人怎么做到的?
砍到只剩两个损失函数
答案出奇地简单。
LeWM 的整个训练目标就长这样:
L_LeWM = L_pred + λ × SIGReg(Z)
两个项。一个预测损失,一个正则化。完事了。
预测损失
普通的 MSE,让模型学会"执行动作 a 之后世界会变成什么样"。没什么好说的。
SIGReg:逼着嵌入服从高斯分布
这才是重点。
SIGReg 做的事情用一句话说清楚:强制潜在空间的嵌入服从标准高斯分布。
原理基于 Cramér-Wold 定理——你没法直接在高维空间里检验"一坨向量是不是高斯分布",但如果你把它们投影到足够多的一维方向上,每个投影都是高斯的,那整体就是高斯的。
SIGReg 的实现步骤:
- 随机生成 M=1024 个方向
- 把嵌入投影到这些方向上
- 在每个投影上计算 Epps-Pulley 正态性检验统计量
- 优化这些统计量,逼着分布逼近高斯
为什么能防崩塌?
想一下——如果编码器偷懒,把所有画面映射到同一个点,嵌入就是一个退化分布,根本不是高斯。如果编码器只用少数几个维度编码信息,分布就会严重偏离各向同性。
SIGReg 卡死了这两条路,编码器只能老老实实地学出一种信息丰富、分布均匀的表示。
没有 EMA,没有 Stop-Gradient,没有预训练编码器。 就一个正则化项,把之前所有"补丁"都替代了。
可调的超参数从 PLDM 的 6 个砍到了 1 个(就是 λ),甚至可以用二分搜索自动找最优值。
模型长什么样
就两个组件,加起来 1500 万参数:
- 编码器:ViT-tiny,patch size=14,12 层,3 个注意力头,隐藏维度 192(~5M 参数)
- 预测器:6 层 Transformer,通过 AdaLN 注入动作信息(~10M 参数)
一张 L40S,跑几个小时,训练完。
1 秒规划,48 倍加速
但让我真正觉得"这东西能打"的,不是训练有多简单,而是规划速度。
LeWM 做规划的时候,先把起始画面和目标画面各编码成一个 192 维的向量,然后用交叉熵方法(CEM)在潜在空间里搜索最优动作序列。
关键数字:每帧只编码成 1 个 192 维 token,而 DINO-WM 要编码几万个 token。信息压缩比差了大约 200 倍。
直接看结果:
| 模型 | 参数量 | 规划时间 | 训练资源 | 防崩塌方式 |
|---|---|---|---|---|
| LeWM | ~15M | ~1 秒 | 单 GPU | SIGReg |
| DINO-WM | 亿级+ | ~47 秒 | 多 GPU 集群 | 冻结 DINOv2 |
| PLDM | ~15M | ~1 秒 | 单 GPU | VICReg(不稳定) |
在 Push-T(2D 推箱子)上,LeWM 只用像素输入,居然赢了 DINO-WM——即使后者额外使用了本体感受输入(关节角度之类的内部状态信息)。
换句话说,LeWM 光从画面里就学到了足够的信息来做决策,不需要额外"作弊"。
当然也有短板。在视觉复杂的 3D OGBench-Cube 任务上,DINO-WM 还是更强——DINOv2毕竟在 1.24 亿张图片上预训练过,视觉先验确实更丰富。在维度很低的 Two-Room 导航任务上,LeWM 反而翻车了,作者猜测是高斯先验在低维任务上"过度约束"了表示空间。
这个模型居然会"惊讶"
这篇论文里我最喜欢的一组实验,跟规划性能无关,而是关于物理理解。
从潜在空间里"读出"物理量
团队训练了一些轻量级的探针网络,尝试从 LeWM 的嵌入中预测智能体位置、方块位置、方块角度。
结果:
| 物理量 | LeWM | PLDM | DINO-WM |
|---|---|---|---|
| 智能体位置 | r=0.998 | r=0.993 | r=0.999 |
| 方块位置 | r=0.999 | r=0.994 | r=0.999 |
| 方块角度 | r=0.990 | r=0.972 | r=0.995 |
1500 万参数,没经过任何预训练,从像素直接学,物理量的预测精度跟用了上亿参数 DINOv2 的方案几乎一样。
它能区分"合理"和"不可能"
更有意思的实验:违背期望检测。
给模型看三段视频,然后看"惊讶值"怎么变:
- 正常轨迹 → 惊讶值很低(意料之中)
- 物体变色 → 惊讶值略高(画面变了,但物理上没问题)
- 物体瞬移 → 惊讶值直接飙升(违反物理定律)
它不是在记忆视觉模式。它能区分"看起来不一样但物理上合理"和"看起来正常但物理上不可能"。
这让我想到一个更深层的问题:如果一个小小的潜在空间就能编码物理规律,那我们是不是不需要那么大的模型就能让 AI 理解世界?
JEPA 这条路的拼图
顺便理一下 LeCun 这条线:
2023 · I-JEPA → 图像自监督学习
2024 · V-JEPA → 扩展到视频
2025 · V-JEPA 2 → 百万小时视频预训练
2025 · LeJEPA → SIGReg 理论框架
2026 · LeWorldModel → 首个稳定端到端 JEPA 世界模型
之前的 JEPA 方法要么冻结编码器(放弃端到端),要么靠一堆 trick 勉强稳定(像 PLDM)。LeWM 是第一个真正做到"从像素开始、端到端训练、稳定收敛、不用任何 trick"的。
为什么这件事很重要
世界模型不再是"大厂专属"了。
之前做世界模型研究,要么依赖 DINOv2 这种基础模型(你得有算力预训练),要么在训练稳定性上痛苦挣扎。LeWM 把门槛降到了"一张 GPU、几小时、调一个参数"。
"小而美"被验证了。
行业趋势是什么都往大了做——更多参数、更多数据、更多算力。LeWM 提供了一个反例:1500 万参数,不用预训练,从像素直接学,物理理解跟亿级模型差不多。模型大小不是瓶颈,至少在某些场景下不是。
SIGReg 可能比 LeWM 本身更重要。
SIGReg 是一个通用正则化方法,理论上可以应用到任何需要学嵌入的任务上。如果它真的像论文声称的那样稳定有效,影响范围远不止世界模型。
论文和代码都已开源:
- 论文:arxiv.org/abs/2603.19…
- 代码:github.com/lucas-maes/…
- 模型权重:hf.co/collections…
- SIGReg 理论基础(LeJEPA):arxiv.org/abs/2511.08…