【AI】具身智能和世界模型涉及的技术点

3 阅读4分钟

具身智能与世界模型涉及的核心技术点可按架构、感知、训练、数据、部署五大维度梳理:


一、模型架构类

技术点说明典型应用
VLA (Vision-Language-Action)视觉-语言-动作端到端联合建模,输入图文指令直接输出机器人动作Octo、GO-2、Lingbot-VLA、Xiaomi-Robotics-0
RSSM (Recurrent State Space Model)循环状态空间模型,压缩历史为潜在状态向量,高效预测未来DreamerV3、CarDreamer
DiT (Diffusion Transformer)去噪扩散+Transformer,生成高质量未来帧Matrix-Game 2.0、Cosmos
Autoregressive Transformer自回归预测下一帧/token,适合序列决策MineWorld、LingBot-VA、HWM
VAE/VQ-VAE视觉编码压缩为离散/连续潜在 Token,降低序列长度MineWorld、Matrix-Game 2.0
Flow-Matching流匹配生成模型,替代扩散实现更快采样HWM
MoE (Mixture of Experts)稀疏激活,大模型参数小模型推理成本部分 VLA 后端采用
Mamba/SSM线性复杂度序列建模,替代注意力处理长视频/长轨迹部分世界模型探索中

二、感知与表示类

技术点说明典型应用
3D Occupancy3D 空间占据栅格预测,替代 2D BEV 实现精细几何理解OccWorld、Drive-OccWorld
BEV (Bird's Eye View)鸟瞰图视角统一表示,融合多摄像头/激光雷达BEVWorld、百度方案
V-JEPA (Video Joint Embedding Predictive Architecture)视频联合嵌入预测架构,对比学习视觉表示,零样本控制Meta V-JEPA 2
Egocentric Vision第一视角视觉输入,模拟人类/机器人主观视角HWM、机器人 VLA
Spatio-temporal Memory时空记忆网络,融合历史观测与空间位置信息RynnBrain
Action Tokenization将连续动作空间离散化为 Token,与视觉语言统一处理VLA 系列模型
Causal VAE因果变分自编码器,解耦内容与时序,保证物理一致性Matrix-Game 2.0

三、训练与优化类

技术点说明典型应用
Self-supervised Learning自监督预训练,无需人工标注动作标签世界模型主流范式
Contrastive Learning对比学习构建视觉表示,正负样本对齐V-JEPA、视觉预训练
Imitation Learning (IL)模仿人类/专家演示数据学习策略机器人操作主流
RL (Reinforcement Learning)强化学习闭环优化,在仿真/真实环境试错Dreamer、CarDreamer
Action Chain-of-Thought动作思维链,显式推理动作序列再执行GO-2、DM0
Spatial Reasoning CoT空间推理链,分步推理物理空间关系DM0、Kairos3.0
Latent Imagination在潜在空间想象未来场景,用于规划而非直接生成像素DreamerV3、RSSM 系列
Distillation大模型知识蒸馏到小模型,适配边缘部署Cosmos-2.5、端侧模型
Quantization (INT8/INT4)模型量化压缩,降低显存与延迟车规/嵌入式部署

四、数据与仿真类

技术点说明典型应用
Action Manifold Learning动作流形学习,从高维异构轨迹数据提取低维结构化表示ABot-M0
Cross-embodiment Dataset跨机器人本体统一数据集,支持不同形态机器人共享学习Open X-Embodiment、AGIBOT World
Sim-to-Real Transfer仿真环境训练策略迁移到真实硬件几乎所有具身模型
Interactive Environment Generation实时交互式 3D 环境生成,用于安全策略测试LingBot-World、GE-2
4D Scene Reconstruction3D 空间+时序的动态场景重建Drive-OccWorld
Multimodal Fusion摄像头+激光雷达+毫米波雷达多传感器融合BEVWorld、自动驾驶方案
Heterogeneous Trajectory Data异构轨迹数据融合(导航、操作、抓取统一表示)ABot-M0 (600万+)

五、部署与工程类

技术点说明典型应用
Real-time Inference (<100ms)毫秒级推理延迟,满足车规/实时控制Cosmos (4B-14B)
Edge Deployment嵌入式/车规芯片/Jetson 部署Thinker、V-JEPA 2、悟界
Zero-shot Cross-embodiment未见本体零样本迁移,新机器人无需重新训练RDT2、ACE-Brain-0
Closed-loop Planning闭环规划:感知→预测→决策→执行→反馈迭代世界模型核心范式
End-to-end Control端到端控制,从传感器直达执行器,无中间模块VLA 核心优势
Cloud-Edge Collaboration云端大模型预训练 + 端侧轻量化推理协同主流商业方案标配

六、关键交叉技术(最具突破性)

技术组合意义
VLA + World Model 闭环世界模型提供仿真推演,VLA 提供动作执行,实现"想象-行动"循环
自回归视频生成 + 动作注入边生成未来场景边输出动作,实时决策(LingBot-VA)
3D Occupancy + 动作条件生成在 3D 空间内根据动作指令生成未来状态,直接对接路径规划
第一视角视频预测 + 强化学习人形机器人从主观视角预测未来,自然学习平衡与操作