大模型不是唯一答案：LeCun用1500万参数证明，小而美的世界模型同样能理解物理世界世界模型最大的坑：表达崩塌 LeC

当所有人都在卷大模型、拼算力的时候，图灵奖得主 Yann LeCun 的团队用一篇论文证明了另一条路：1500 万参数、单 GPU 训练、1 秒完成规划——而且这个"小家伙"居然能检测出物理世界中的"不可能事件"。

世界模型最大的坑：表达崩塌

LeCun 这些年一直在推一件事：别再死磕生成式模型了，世界模型才是通向 AGI 的路。

他提出的 JEPA（Joint Embedding Predictive Architecture）思路很干净——不在像素层面重建世界，而是把画面压缩到一个低维潜在空间里，在里面预测未来状态。省算力，还能学到真正有用的特征。

但 JEPA 有个要命的毛病：表达崩塌。

模型训练着训练着就会发现一个"捷径"——把所有输入都映射到同一个向量，预测损失瞬间降到零。模型看起来收敛了，实际上已经废了。就像一个学生发现把所有题都写同一个答案也能拿分，就再也不动脑子了。

之前大家怎么对付这个问题的呢？

各种补丁往上打：指数移动平均（EMA）、停止梯度（Stop-Gradient）、冻结预训练的 DINOv2 编码器、6 到 7 个损失函数项拼在一起……

要么治标不治本，要么引入新的不稳定性，要么直接锁死了模型上限。

PLDM 是目前唯一一个尝试端到端从像素训练的 JEPA 方法，但训练极度不稳定，7 个损失函数要同时调，简直是在走钢丝。

所以当 LeWorldModel 这篇论文出来的时候，我第一反应是：这帮人怎么做到的？

砍到只剩两个损失函数

答案出奇地简单。

LeWM 的整个训练目标就长这样：

L_LeWM = L_pred + λ × SIGReg(Z)

两个项。一个预测损失，一个正则化。完事了。

预测损失

普通的 MSE，让模型学会"执行动作 a 之后世界会变成什么样"。没什么好说的。

SIGReg：逼着嵌入服从高斯分布

这才是重点。

SIGReg 做的事情用一句话说清楚：强制潜在空间的嵌入服从标准高斯分布。

原理基于 Cramér-Wold 定理——你没法直接在高维空间里检验"一坨向量是不是高斯分布"，但如果你把它们投影到足够多的一维方向上，每个投影都是高斯的，那整体就是高斯的。

SIGReg 的实现步骤：

随机生成 M=1024 个方向
把嵌入投影到这些方向上
在每个投影上计算 Epps-Pulley 正态性检验统计量
优化这些统计量，逼着分布逼近高斯

为什么能防崩塌？

想一下——如果编码器偷懒，把所有画面映射到同一个点，嵌入就是一个退化分布，根本不是高斯。如果编码器只用少数几个维度编码信息，分布就会严重偏离各向同性。

SIGReg 卡死了这两条路，编码器只能老老实实地学出一种信息丰富、分布均匀的表示。

没有 EMA，没有 Stop-Gradient，没有预训练编码器。就一个正则化项，把之前所有"补丁"都替代了。

可调的超参数从 PLDM 的 6 个砍到了 1 个（就是 λ），甚至可以用二分搜索自动找最优值。

模型长什么样

就两个组件，加起来 1500 万参数：

编码器：ViT-tiny，patch size=14，12 层，3 个注意力头，隐藏维度 192（~5M 参数）
预测器：6 层 Transformer，通过 AdaLN 注入动作信息（~10M 参数）

一张 L40S，跑几个小时，训练完。

1 秒规划，48 倍加速

但让我真正觉得"这东西能打"的，不是训练有多简单，而是规划速度。

LeWM 做规划的时候，先把起始画面和目标画面各编码成一个 192 维的向量，然后用交叉熵方法（CEM）在潜在空间里搜索最优动作序列。

关键数字：每帧只编码成 1 个 192 维 token，而 DINO-WM 要编码几万个 token。信息压缩比差了大约 200 倍。

直接看结果：

模型	参数量	规划时间	训练资源	防崩塌方式
LeWM	~15M	~1 秒	单 GPU	SIGReg
DINO-WM	亿级+	~47 秒	多 GPU 集群	冻结 DINOv2
PLDM	~15M	~1 秒	单 GPU	VICReg（不稳定）

在 Push-T（2D 推箱子）上，LeWM 只用像素输入，居然赢了 DINO-WM——即使后者额外使用了本体感受输入（关节角度之类的内部状态信息）。

换句话说，LeWM 光从画面里就学到了足够的信息来做决策，不需要额外"作弊"。

当然也有短板。在视觉复杂的 3D OGBench-Cube 任务上，DINO-WM 还是更强——DINOv2毕竟在 1.24 亿张图片上预训练过，视觉先验确实更丰富。在维度很低的 Two-Room 导航任务上，LeWM 反而翻车了，作者猜测是高斯先验在低维任务上"过度约束"了表示空间。

这个模型居然会"惊讶"

这篇论文里我最喜欢的一组实验，跟规划性能无关，而是关于物理理解。

从潜在空间里"读出"物理量

团队训练了一些轻量级的探针网络，尝试从 LeWM 的嵌入中预测智能体位置、方块位置、方块角度。

结果：

物理量	LeWM	PLDM	DINO-WM
智能体位置	r=0.998	r=0.993	r=0.999
方块位置	r=0.999	r=0.994	r=0.999
方块角度	r=0.990	r=0.972	r=0.995

1500 万参数，没经过任何预训练，从像素直接学，物理量的预测精度跟用了上亿参数 DINOv2 的方案几乎一样。

它能区分"合理"和"不可能"

更有意思的实验：违背期望检测。

给模型看三段视频，然后看"惊讶值"怎么变：

正常轨迹 → 惊讶值很低（意料之中）
物体变色 → 惊讶值略高（画面变了，但物理上没问题）
物体瞬移 → 惊讶值直接飙升（违反物理定律）

它不是在记忆视觉模式。它能区分"看起来不一样但物理上合理"和"看起来正常但物理上不可能"。

这让我想到一个更深层的问题：如果一个小小的潜在空间就能编码物理规律，那我们是不是不需要那么大的模型就能让 AI 理解世界？

JEPA 这条路的拼图

顺便理一下 LeCun 这条线：

2023 · I-JEPA        → 图像自监督学习
2024 · V-JEPA        → 扩展到视频
2025 · V-JEPA 2      → 百万小时视频预训练
2025 · LeJEPA        → SIGReg 理论框架
2026 · LeWorldModel  → 首个稳定端到端 JEPA 世界模型

之前的 JEPA 方法要么冻结编码器（放弃端到端），要么靠一堆 trick 勉强稳定（像 PLDM）。LeWM 是第一个真正做到"从像素开始、端到端训练、稳定收敛、不用任何 trick"的。

为什么这件事很重要

世界模型不再是"大厂专属"了。

之前做世界模型研究，要么依赖 DINOv2 这种基础模型（你得有算力预训练），要么在训练稳定性上痛苦挣扎。LeWM 把门槛降到了"一张 GPU、几小时、调一个参数"。

"小而美"被验证了。

行业趋势是什么都往大了做——更多参数、更多数据、更多算力。LeWM 提供了一个反例：1500 万参数，不用预训练，从像素直接学，物理理解跟亿级模型差不多。模型大小不是瓶颈，至少在某些场景下不是。

SIGReg 可能比 LeWM 本身更重要。

SIGReg 是一个通用正则化方法，理论上可以应用到任何需要学嵌入的任务上。如果它真的像论文声称的那样稳定有效，影响范围远不止世界模型。

论文和代码都已开源：

论文：arxiv.org/abs/2603.19…
代码：github.com/lucas-maes/…
模型权重：hf.co/collections…
SIGReg 理论基础（LeJEPA）：arxiv.org/abs/2511.08…