【AI】具身智能和世界模型涉及的技术点

2026-04-21 3 阅读4分钟

具身智能与世界模型涉及的核心技术点可按架构、感知、训练、数据、部署五大维度梳理：

一、模型架构类

技术点	说明	典型应用
VLA (Vision-Language-Action)	视觉-语言-动作端到端联合建模，输入图文指令直接输出机器人动作	Octo、GO-2、Lingbot-VLA、Xiaomi-Robotics-0
RSSM (Recurrent State Space Model)	循环状态空间模型，压缩历史为潜在状态向量，高效预测未来	DreamerV3、CarDreamer
DiT (Diffusion Transformer)	去噪扩散+Transformer，生成高质量未来帧	Matrix-Game 2.0、Cosmos
Autoregressive Transformer	自回归预测下一帧/token，适合序列决策	MineWorld、LingBot-VA、HWM
VAE/VQ-VAE	视觉编码压缩为离散/连续潜在 Token，降低序列长度	MineWorld、Matrix-Game 2.0
Flow-Matching	流匹配生成模型，替代扩散实现更快采样	HWM
MoE (Mixture of Experts)	稀疏激活，大模型参数小模型推理成本	部分 VLA 后端采用
Mamba/SSM	线性复杂度序列建模，替代注意力处理长视频/长轨迹	部分世界模型探索中

二、感知与表示类

技术点	说明	典型应用
3D Occupancy	3D 空间占据栅格预测，替代 2D BEV 实现精细几何理解	OccWorld、Drive-OccWorld
BEV (Bird's Eye View)	鸟瞰图视角统一表示，融合多摄像头/激光雷达	BEVWorld、百度方案
V-JEPA (Video Joint Embedding Predictive Architecture)	视频联合嵌入预测架构，对比学习视觉表示，零样本控制	Meta V-JEPA 2
Egocentric Vision	第一视角视觉输入，模拟人类/机器人主观视角	HWM、机器人 VLA
Spatio-temporal Memory	时空记忆网络，融合历史观测与空间位置信息	RynnBrain
Action Tokenization	将连续动作空间离散化为 Token，与视觉语言统一处理	VLA 系列模型
Causal VAE	因果变分自编码器，解耦内容与时序，保证物理一致性	Matrix-Game 2.0

三、训练与优化类

技术点	说明	典型应用
Self-supervised Learning	自监督预训练，无需人工标注动作标签	世界模型主流范式
Contrastive Learning	对比学习构建视觉表示，正负样本对齐	V-JEPA、视觉预训练
Imitation Learning (IL)	模仿人类/专家演示数据学习策略	机器人操作主流
RL (Reinforcement Learning)	强化学习闭环优化，在仿真/真实环境试错	Dreamer、CarDreamer
Action Chain-of-Thought	动作思维链，显式推理动作序列再执行	GO-2、DM0
Spatial Reasoning CoT	空间推理链，分步推理物理空间关系	DM0、Kairos3.0
Latent Imagination	在潜在空间想象未来场景，用于规划而非直接生成像素	DreamerV3、RSSM 系列
Distillation	大模型知识蒸馏到小模型，适配边缘部署	Cosmos-2.5、端侧模型
Quantization (INT8/INT4)	模型量化压缩，降低显存与延迟	车规/嵌入式部署

四、数据与仿真类

技术点	说明	典型应用
Action Manifold Learning	动作流形学习，从高维异构轨迹数据提取低维结构化表示	ABot-M0
Cross-embodiment Dataset	跨机器人本体统一数据集，支持不同形态机器人共享学习	Open X-Embodiment、AGIBOT World
Sim-to-Real Transfer	仿真环境训练策略迁移到真实硬件	几乎所有具身模型
Interactive Environment Generation	实时交互式 3D 环境生成，用于安全策略测试	LingBot-World、GE-2
4D Scene Reconstruction	3D 空间+时序的动态场景重建	Drive-OccWorld
Multimodal Fusion	摄像头+激光雷达+毫米波雷达多传感器融合	BEVWorld、自动驾驶方案
Heterogeneous Trajectory Data	异构轨迹数据融合（导航、操作、抓取统一表示）	ABot-M0 (600万+)

五、部署与工程类

技术点	说明	典型应用
Real-time Inference (<100ms)	毫秒级推理延迟，满足车规/实时控制	Cosmos (4B-14B)
Edge Deployment	嵌入式/车规芯片/Jetson 部署	Thinker、V-JEPA 2、悟界
Zero-shot Cross-embodiment	未见本体零样本迁移，新机器人无需重新训练	RDT2、ACE-Brain-0
Closed-loop Planning	闭环规划：感知→预测→决策→执行→反馈迭代	世界模型核心范式
End-to-end Control	端到端控制，从传感器直达执行器，无中间模块	VLA 核心优势
Cloud-Edge Collaboration	云端大模型预训练 + 端侧轻量化推理协同	主流商业方案标配

六、关键交叉技术（最具突破性）

技术组合	意义
VLA + World Model 闭环	世界模型提供仿真推演，VLA 提供动作执行，实现"想象-行动"循环
自回归视频生成 + 动作注入	边生成未来场景边输出动作，实时决策（LingBot-VA）
3D Occupancy + 动作条件生成	在 3D 空间内根据动作指令生成未来状态，直接对接路径规划
第一视角视频预测 + 强化学习	人形机器人从主观视角预测未来，自然学习平衡与操作