具身智能与世界模型涉及的核心技术点可按架构、感知、训练、数据、部署五大维度梳理:
一、模型架构类
| 技术点 | 说明 | 典型应用 |
|---|
| VLA (Vision-Language-Action) | 视觉-语言-动作端到端联合建模,输入图文指令直接输出机器人动作 | Octo、GO-2、Lingbot-VLA、Xiaomi-Robotics-0 |
| RSSM (Recurrent State Space Model) | 循环状态空间模型,压缩历史为潜在状态向量,高效预测未来 | DreamerV3、CarDreamer |
| DiT (Diffusion Transformer) | 去噪扩散+Transformer,生成高质量未来帧 | Matrix-Game 2.0、Cosmos |
| Autoregressive Transformer | 自回归预测下一帧/token,适合序列决策 | MineWorld、LingBot-VA、HWM |
| VAE/VQ-VAE | 视觉编码压缩为离散/连续潜在 Token,降低序列长度 | MineWorld、Matrix-Game 2.0 |
| Flow-Matching | 流匹配生成模型,替代扩散实现更快采样 | HWM |
| MoE (Mixture of Experts) | 稀疏激活,大模型参数小模型推理成本 | 部分 VLA 后端采用 |
| Mamba/SSM | 线性复杂度序列建模,替代注意力处理长视频/长轨迹 | 部分世界模型探索中 |
二、感知与表示类
| 技术点 | 说明 | 典型应用 |
|---|
| 3D Occupancy | 3D 空间占据栅格预测,替代 2D BEV 实现精细几何理解 | OccWorld、Drive-OccWorld |
| BEV (Bird's Eye View) | 鸟瞰图视角统一表示,融合多摄像头/激光雷达 | BEVWorld、百度方案 |
| V-JEPA (Video Joint Embedding Predictive Architecture) | 视频联合嵌入预测架构,对比学习视觉表示,零样本控制 | Meta V-JEPA 2 |
| Egocentric Vision | 第一视角视觉输入,模拟人类/机器人主观视角 | HWM、机器人 VLA |
| Spatio-temporal Memory | 时空记忆网络,融合历史观测与空间位置信息 | RynnBrain |
| Action Tokenization | 将连续动作空间离散化为 Token,与视觉语言统一处理 | VLA 系列模型 |
| Causal VAE | 因果变分自编码器,解耦内容与时序,保证物理一致性 | Matrix-Game 2.0 |
三、训练与优化类
| 技术点 | 说明 | 典型应用 |
|---|
| Self-supervised Learning | 自监督预训练,无需人工标注动作标签 | 世界模型主流范式 |
| Contrastive Learning | 对比学习构建视觉表示,正负样本对齐 | V-JEPA、视觉预训练 |
| Imitation Learning (IL) | 模仿人类/专家演示数据学习策略 | 机器人操作主流 |
| RL (Reinforcement Learning) | 强化学习闭环优化,在仿真/真实环境试错 | Dreamer、CarDreamer |
| Action Chain-of-Thought | 动作思维链,显式推理动作序列再执行 | GO-2、DM0 |
| Spatial Reasoning CoT | 空间推理链,分步推理物理空间关系 | DM0、Kairos3.0 |
| Latent Imagination | 在潜在空间想象未来场景,用于规划而非直接生成像素 | DreamerV3、RSSM 系列 |
| Distillation | 大模型知识蒸馏到小模型,适配边缘部署 | Cosmos-2.5、端侧模型 |
| Quantization (INT8/INT4) | 模型量化压缩,降低显存与延迟 | 车规/嵌入式部署 |
四、数据与仿真类
| 技术点 | 说明 | 典型应用 |
|---|
| Action Manifold Learning | 动作流形学习,从高维异构轨迹数据提取低维结构化表示 | ABot-M0 |
| Cross-embodiment Dataset | 跨机器人本体统一数据集,支持不同形态机器人共享学习 | Open X-Embodiment、AGIBOT World |
| Sim-to-Real Transfer | 仿真环境训练策略迁移到真实硬件 | 几乎所有具身模型 |
| Interactive Environment Generation | 实时交互式 3D 环境生成,用于安全策略测试 | LingBot-World、GE-2 |
| 4D Scene Reconstruction | 3D 空间+时序的动态场景重建 | Drive-OccWorld |
| Multimodal Fusion | 摄像头+激光雷达+毫米波雷达多传感器融合 | BEVWorld、自动驾驶方案 |
| Heterogeneous Trajectory Data | 异构轨迹数据融合(导航、操作、抓取统一表示) | ABot-M0 (600万+) |
五、部署与工程类
| 技术点 | 说明 | 典型应用 |
|---|
| Real-time Inference (<100ms) | 毫秒级推理延迟,满足车规/实时控制 | Cosmos (4B-14B) |
| Edge Deployment | 嵌入式/车规芯片/Jetson 部署 | Thinker、V-JEPA 2、悟界 |
| Zero-shot Cross-embodiment | 未见本体零样本迁移,新机器人无需重新训练 | RDT2、ACE-Brain-0 |
| Closed-loop Planning | 闭环规划:感知→预测→决策→执行→反馈迭代 | 世界模型核心范式 |
| End-to-end Control | 端到端控制,从传感器直达执行器,无中间模块 | VLA 核心优势 |
| Cloud-Edge Collaboration | 云端大模型预训练 + 端侧轻量化推理协同 | 主流商业方案标配 |
六、关键交叉技术(最具突破性)
| 技术组合 | 意义 |
|---|
| VLA + World Model 闭环 | 世界模型提供仿真推演,VLA 提供动作执行,实现"想象-行动"循环 |
| 自回归视频生成 + 动作注入 | 边生成未来场景边输出动作,实时决策(LingBot-VA) |
| 3D Occupancy + 动作条件生成 | 在 3D 空间内根据动作指令生成未来状态,直接对接路径规划 |
| 第一视角视频预测 + 强化学习 | 人形机器人从主观视角预测未来,自然学习平衡与操作 |