经典架构
经典世界模型的核心架构
- 视觉模型 Vision Model (V) —— “眼睛”
- 功能:负责特征提取和降维。
- 原理:智能体在每个时间步接收高维的原始观测(如图片)。 模型(通常是一个变分自编码器 VAE)将这些高维数据压缩成一个低维的潜在向量 。
- 作用:它告诉智能体当前“看到了什么”,并过滤掉不重要的噪声。
- 记忆模型 Memory RNN (M) —— “大脑”
- 功能:负责时序预测和环境建模。
- 原理: 是一个循环神经网络(RNN)。它接收当前的潜在向量 ,并结合过去的历史信息,生成一个隐藏状态 。
- 作用:它能预测未来可能发生的情况。正如图中箭头所示, 会传递到下一个时间步
- 控制器 Controller (C) —— “手脚”
- 功能:负责决策和输出动作。
- 原理: 是一个非常小的线性网络。它同时接收来自 的当前视觉信息 和来自 的预测背景信息 。
- 作用:基于 和 ,它选择一个最优的动作 。这个动作会作用于环境,导致环境发生变化,从而产生新的观测,形成闭环。
图中纵向V->z是观测的低维表征,用VAE实现,水平的M->h->M->h是序列的预测下一个时刻的表征,用RNN实现,这两部分加起来就是World Model。
也就是说,World model的主要包含状态表征和转移模型,这也正好对应mental representations 和 mental simulation。
真正的结构是下面这张图,RNN的输入不仅是z,还有动作action
在通用智能体领域,RSSM、Transformer、JEPA、Diffusion各自都有不少工作。其中,JEPA是LeCun力推的算法。
环状态空间模型RSSM(Recurrent State Space Models)
-
双重状态设计:
- 确定性状态 (Deterministic) :负责记住长期信息。图中用方框表示,类似于 RNN 的隐藏状态。
- 随机状态 (Stochastic) :负责捕捉环境的不确定性。图中用圆圈表示,从分布中采样得到。
-
协作机制:
- 记忆传递: 接收上一时刻的 、 和动作 ,提供稳定的背景。
- 随机预测:在 的基础上,结合当前的观测(图中虚线表示推断过程),生成随机变量 。
- 结果输出:由 和 共同决定观测重构 和奖励 。
- RSSM 是一种经典的世界模型结构,能够从高维观测中预测潜在状态和奖励。
- 它包含六个模块:编码器、序列模型、动态预测器、解码器、奖励预测器和连续预测器。
RSSM 的组成:
- 编码器:将观测 映射到随机潜在状态 ,其中 是确定性 RNN 状态, 是随机潜在变量。
- 序列模型:给定过去的动作 ,预测这些表示的序列。
- 动态预测器:预测先验潜在状态转移。
- 解码器:从潜在状态重构观测。
- 奖励预测器:预测奖励。
- 连续预测器:预测情节是否继续。
V-JEPA
- 核心理念:为什么要“联合嵌入预测”?
传统的生成式模型(如 Sora)目标是补全每一个像素。但 LeCun 认为,预测像素太浪费算力,且对理解世界并不高效。
- V-JEPA 的逻辑:它不在像素空间预测,而是在**抽象表示空间(Latent Space)**进行预测。
- 通俗比喻:当你看到一个人在挥动球拍,你不需要预测他衣服上的每一根纤维如何摆动,你只需要预测“他正在击球”这个抽象动作。
- 架构拆解
图中展示了 V-JEPA 的训练逻辑:
- 掩码处理 (Masking) :视频被遮掉了一大部分内容(图中左上角的紫色空格)。
- Context Encoder (上下文编码器) :负责处理“看得见”的部分,将其转化为抽象特征。
- Target Encoder (目标编码器) :负责处理“被遮住”的原始部分,并提取出真实答案的抽象特征。注意,这里使用了 EMA(指数移动平均) ,意味着它的参数是从 Context Encoder 缓慢更新过来的。
- Predictor (预测器) :这是核心。它根据上下文特征,去预测那块被遮住区域“应该是怎样的抽象特征”。
- Loss (损失函数) :模型比较“预测出的特征”和“目标编码器提取的真实特征”之间的差距,而不是比较像素。
- V-JEPA 的核心优势
- 训练效率高:由于不需要生成复杂的像素细节,训练效率比传统方法提升了 1.5 到 6 倍。
- 丢弃不可预测信息:如果视频中有一段杂乱无章的背景噪声(比如随风摆动的草叶),生成模型会费力去模拟它,而 V-JEPA 可以选择忽略这些无关紧要的细节,只关注核心语义。
- 自监督学习:不需要人工标注(如“这是猫”、“那是狗”),它通过视频自身的前后关联来学习物理世界的规律。
- 传统微调 vs. V-JEPA 的差异
-
传统大模型(全面微调) :
- 缺点:就像为了让一个全才变成“木工专家”,你必须重塑他大脑里所有的神经元。这会导致两个问题:算力消耗巨大,且容易产生“灾难性遗忘”(模型不再擅长之前的任务)。
-
V-JEPA 模式(特征重用) :
- 优点:它认为模型在预训练阶段已经学到了物理世界的“普适规律”。面对新任务时,只需要在模型输出的抽象特征上加一个极小的“翻译器”(Decoder/Head)即可。
- 架构中的 "Frozen"(冷冻)
观察图中淡蓝色的方框:
- 主体部分(X-encoder 和 Predictor)是被“冻结”的。这意味着在面对不同任务时,这部分庞大的参数保持不变,不需要更新梯度。
- 这种做法保证了模型学到的“世界常识”是高度稳定的,不会因为学了新动作就忘了旧目标。
- “一脑多用”:下游任务的灵活切换
由于主干网络输出的是高度凝练的抽象表示(Representations),我们可以根据需求快速插拔不同的轻量级解码器(Decoder):
- 图像分类 (Image classification) :提取静态特征。
- 动作分类 (Action classification) :提取视频的时序动态特征。
- 时空动作检测 (Spatial-temporal action detection) :精细定位动作发生的空间和时间。
这种方法极其节省标签数据。即使在没有任何标记数据的情况下完成预训练,后续只需极少量的样本就能让模型达到极高的精度。不再需要“全面微调”
V-JEPA的不足
1. 从“单感官”到“视听协同” (Multimodal Integration)
目前的 V-JEPA 像是一个“失聪”的观察者,它只通过像素的移动来理解世界。
- 技术路径:未来的研究会尝试将音频也映射到同一个**联合嵌入空间(Joint Embedding Space)**中。这意味着模型不仅要预测“下一帧看起来像什么”,还要预测“下一秒听起来像什么”。
2. 突破“短时记忆”的瓶颈 (Long-term Horizons)
文中提到 V-JEPA 目前擅长的是 10 秒以内 的细粒度动作(如“拿起笔” vs “假装放下笔”)。
- 现状:这种短时预测本质上是在学习“即时物理规律”(物体运动惯性、简单的手部交互)。
- 挑战:如果你要求智能体完成一个任务(比如在《我的世界》里盖房子,或者在现实中准备晚餐),这涉及分钟甚至小时级别的逻辑链。
- 瓶颈:随着时间推移,潜在空间中的预测误差会不断累积(即“漂移”现象)。如何像人类一样,在脑中既能看到“下一秒的动作”,又能规划“十分钟后的目标”,是世界模型从“动作识别”迈向“自主决策”的关键。
3. “细粒度交互”的深层含义
V-JEPA 擅长区分欺骗性动作(如假装放下笔)。
- 为什么 V-JEPA 强? 因为它是在特征空间预测。它捕捉的是“手”与“笔”之间这种抽象的交互关系。
- 传统模型 vs V-JEPA:传统模型可能只觉得画面很像,就判定动作为“放下”;但 V-JEPA 因为学习了视频的内在表示,它能识别出由于笔没接触桌面而导致的“动力学特征不匹配”。
RSSM VS V-JEPA
| 特性 | RSSM (如 Dreamer/EvoAgent) | V-JEPA |
|---|---|---|
| 预测目标 | 潜在状态 + 像素重构 + 奖励 | 只有潜在特征 (Latent Features) |
| 计算开销 | 较高(因为要解码/生成像素) | 极低(效率比生成式高 1.5-6 倍) |
| 不确定性 | 通过随机变量 显式建模 | 通过丢弃不可预测信息隐式处理 |
| 长时程 | 依赖 RNN 的循环连接 | 依赖时空 Transformer 块 |
| 最佳用途 | 强化学习、具身智能体控制 | 视频理解、细粒度动作分类 |