世界模型

7 阅读8分钟

经典架构

经典世界模型的核心架构

  1. 视觉模型 Vision Model (V) —— “眼睛”
  • 功能:负责特征提取和降维。
  • 原理:智能体在每个时间步接收高维的原始观测(如图片)。VV 模型(通常是一个变分自编码器 VAE)将这些高维数据压缩成一个低维的潜在向量 zz
  • 作用:它告诉智能体当前“看到了什么”,并过滤掉不重要的噪声。
  1. 记忆模型 Memory RNN (M) —— “大脑”
  • 功能:负责时序预测和环境建模。
  • 原理MM 是一个循环神经网络(RNN)。它接收当前的潜在向量 zz,并结合过去的历史信息,生成一个隐藏状态 hh
  • 作用:它能预测未来可能发生的情况。正如图中箭头所示,hh 会传递到下一个时间步
  1. 控制器 Controller (C) —— “手脚”
  • 功能:负责决策和输出动作。
  • 原理CC 是一个非常小的线性网络。它同时接收来自 VV 的当前视觉信息 zz 和来自 MM 的预测背景信息 hh
  • 作用:基于 zzhh,它选择一个最优的动作 aa 。这个动作会作用于环境,导致环境发生变化,从而产生新的观测,形成闭环。

image.png 图中纵向V->z是观测的低维表征,用VAE实现,水平的M->h->M->h是序列的预测下一个时刻的表征,用RNN实现,这两部分加起来就是World Model。

也就是说,World model的主要包含状态表征转移模型,这也正好对应mental representations 和 mental simulation。

真正的结构是下面这张图,RNN的输入不仅是z,还有动作action

image.png

在通用智能体领域,RSSM、Transformer、JEPA、Diffusion各自都有不少工作。其中,JEPA是LeCun力推的算法。

环状态空间模型RSSM(Recurrent State Space Models)

  • 双重状态设计

    • 确定性状态 hth_t (Deterministic) :负责记住长期信息。图中用方框表示,类似于 RNN 的隐藏状态。
    • 随机状态 sts_t (Stochastic) :负责捕捉环境的不确定性。图中用圆圈表示,从分布中采样得到。
  • 协作机制

    1. 记忆传递hth_t 接收上一时刻的 ht1h_{t-1}st1s_{t-1} 和动作 at1a_{t-1},提供稳定的背景。
    2. 随机预测:在 hth_t 的基础上,结合当前的观测(图中虚线表示推断过程),生成随机变量 sts_t
    3. 结果输出:由 hth_tsts_t 共同决定观测重构 oto_t 和奖励 rtr_timage.png
  • RSSM 是一种经典的世界模型结构,能够从高维观测中预测潜在状态和奖励。
  • 它包含六个模块:编码器、序列模型、动态预测器、解码器、奖励预测器和连续预测器

RSSM 的组成:

  • 编码器:将观测 oo 映射到随机潜在状态 st=(ht,zt)s_t = (h_t, z_t),其中 hth_t 是确定性 RNN 状态,ztz_t 是随机潜在变量。
  • 序列模型:给定过去的动作 at1a_{t-1},预测这些表示的序列。
  • 动态预测器:预测先验潜在状态转移。
  • 解码器:从潜在状态重构观测。
  • 奖励预测器:预测奖励。
  • 连续预测器:预测情节是否继续。

V-JEPA

image.png

  1. 核心理念:为什么要“联合嵌入预测”?

传统的生成式模型(如 Sora)目标是补全每一个像素。但 LeCun 认为,预测像素太浪费算力,且对理解世界并不高效。

  • V-JEPA 的逻辑:它不在像素空间预测,而是在**抽象表示空间(Latent Space)**进行预测。
  • 通俗比喻:当你看到一个人在挥动球拍,你不需要预测他衣服上的每一根纤维如何摆动,你只需要预测“他正在击球”这个抽象动作。
  1. 架构拆解

图中展示了 V-JEPA 的训练逻辑:

  • 掩码处理 (Masking) :视频被遮掉了一大部分内容(图中左上角的紫色空格)。
  • Context Encoder (上下文编码器) :负责处理“看得见”的部分,将其转化为抽象特征。
  • Target Encoder (目标编码器) :负责处理“被遮住”的原始部分,并提取出真实答案的抽象特征。注意,这里使用了 EMA(指数移动平均) ,意味着它的参数是从 Context Encoder 缓慢更新过来的。
  • Predictor (预测器) :这是核心。它根据上下文特征,去预测那块被遮住区域“应该是怎样的抽象特征”。
  • Loss (损失函数) :模型比较“预测出的特征”和“目标编码器提取的真实特征”之间的差距,而不是比较像素。
  1. V-JEPA 的核心优势
  • 训练效率高:由于不需要生成复杂的像素细节,训练效率比传统方法提升了 1.5 到 6 倍
  • 丢弃不可预测信息:如果视频中有一段杂乱无章的背景噪声(比如随风摆动的草叶),生成模型会费力去模拟它,而 V-JEPA 可以选择忽略这些无关紧要的细节,只关注核心语义。
  • 自监督学习:不需要人工标注(如“这是猫”、“那是狗”),它通过视频自身的前后关联来学习物理世界的规律。

image.png

  1. 传统微调 vs. V-JEPA 的差异
  • 传统大模型(全面微调)

    • 缺点:就像为了让一个全才变成“木工专家”,你必须重塑他大脑里所有的神经元。这会导致两个问题:算力消耗巨大,且容易产生“灾难性遗忘”(模型不再擅长之前的任务)。
  • V-JEPA 模式(特征重用)

    • 优点:它认为模型在预训练阶段已经学到了物理世界的“普适规律”。面对新任务时,只需要在模型输出的抽象特征上加一个极小的“翻译器”(Decoder/Head)即可。
  1. 架构中的 "Frozen"(冷冻)

观察图中淡蓝色的方框:

  • 主体部分(X-encoder 和 Predictor)是被“冻结”的。这意味着在面对不同任务时,这部分庞大的参数保持不变,不需要更新梯度。
  • 这种做法保证了模型学到的“世界常识”是高度稳定的,不会因为学了新动作就忘了旧目标。
  1. “一脑多用”:下游任务的灵活切换

由于主干网络输出的是高度凝练的抽象表示(Representations),我们可以根据需求快速插拔不同的轻量级解码器(Decoder):

  • 图像分类 (Image classification) :提取静态特征。
  • 动作分类 (Action classification) :提取视频的时序动态特征。
  • 时空动作检测 (Spatial-temporal action detection) :精细定位动作发生的空间和时间。

这种方法极其节省标签数据。即使在没有任何标记数据的情况下完成预训练,后续只需极少量的样本就能让模型达到极高的精度。不再需要“全面微调”

V-JEPA的不足

1. 从“单感官”到“视听协同” (Multimodal Integration)

目前的 V-JEPA 像是一个“失聪”的观察者,它只通过像素的移动来理解世界。

  • 技术路径:未来的研究会尝试将音频也映射到同一个**联合嵌入空间(Joint Embedding Space)**中。这意味着模型不仅要预测“下一帧看起来像什么”,还要预测“下一秒听起来像什么”。

2. 突破“短时记忆”的瓶颈 (Long-term Horizons)

文中提到 V-JEPA 目前擅长的是 10 秒以内 的细粒度动作(如“拿起笔” vs “假装放下笔”)。

  • 现状:这种短时预测本质上是在学习“即时物理规律”(物体运动惯性、简单的手部交互)。
  • 挑战:如果你要求智能体完成一个任务(比如在《我的世界》里盖房子,或者在现实中准备晚餐),这涉及分钟甚至小时级别的逻辑链。
  • 瓶颈:随着时间推移,潜在空间中的预测误差会不断累积(即“漂移”现象)。如何像人类一样,在脑中既能看到“下一秒的动作”,又能规划“十分钟后的目标”,是世界模型从“动作识别”迈向“自主决策”的关键。

3. “细粒度交互”的深层含义

V-JEPA 擅长区分欺骗性动作(如假装放下笔)。

  • 为什么 V-JEPA 强? 因为它是在特征空间预测。它捕捉的是“手”与“笔”之间这种抽象的交互关系
  • 传统模型 vs V-JEPA:传统模型可能只觉得画面很像,就判定动作为“放下”;但 V-JEPA 因为学习了视频的内在表示,它能识别出由于笔没接触桌面而导致的“动力学特征不匹配”。

RSSM VS V-JEPA

特性RSSM (如 Dreamer/EvoAgent)V-JEPA
预测目标潜在状态 + 像素重构 + 奖励只有潜在特征 (Latent Features)
计算开销较高(因为要解码/生成像素)极低(效率比生成式高 1.5-6 倍)
不确定性通过随机变量 zz 显式建模通过丢弃不可预测信息隐式处理
长时程依赖 RNN 的循环连接依赖时空 Transformer 块
最佳用途强化学习、具身智能体控制视频理解、细粒度动作分类