一份最新具身智能中的世界模型&安全综述

44 阅读4分钟

一份最新具身智能中的世界模型&安全综述

大家好,我是PaperAgent不是Agent
今天分享2最新篇具身智能(Embodied AI)世界模型(World Model)和安全挑战的系统性综述! 【AI大模型教程】

🌏 为什么你需要关心“世界模型”?

具身 AI (Embodied AI)的核心痛点是**“我动之后,世界会变成什么样?”**世界模型(World Model)就是智能体的“脑内小宇宙”——它先模拟未来,再决定当下。从 Dreamer 到 Sora,从机器人到自动驾驶,世界模型正在统一感知→预测→决策的全链路。这篇 2025 年 10 月发布的 综述,首次用三维坐标轴把散落一地的文献重新拧成一股绳,堪称“具身 AI 地图”

Fig-1 论文整体框架

图1:世界模型的三大分类轴——功能、时间、空间

🧩 三轴 taxonomy:给每篇论文贴「坐标」

Table-I 机器人领域代表方法

表1:机器人/通用域代表方法「坐标」一览(对应论文 Table I)

维度选项一句话释义
功能Decision-Coupled为「决策」量身定做,强耦合策略
General-Purpose通用视频生成器,下游任务即插即用
时间Sequential自回归,一步一帧,省显存但误差会累积
Global一次预测全序列,速度快但吃算力
空间GLV / TFS / SLG / DRR从「一把向量」到「3D 高斯」,保真度递增、效率递减

Table-II 自动驾驶代表方法

表2:自动驾驶域代表方法「坐标」一览(对应论文 Table II)

📊 性能擂台:像素生成、场景理解、控制任务

1️⃣ 像素生成 - nuScenes 视频

2️⃣ 场景理解 - 4D Occupancy 预测

  • 指标:mIoU↑
  • COME(GT ego)平均 mIoU 34.23%,领先第二名 7 个点
  • 结论:给「真值轨迹」当外挂,长期预测直接起飞

3️⃣ 控制任务 - DMC/RLBench

  • DreamerV3 在 5M step 内 20 任务平均 823 分,依旧能打
  • VidMan 在 RLBench 18 任务平均成功率 67%,把「视频扩散+IDM」玩出花

Table-VI DMC 控制得分

表6:DMC 控制任务得分

Table-VII RLBench 操作成功率

表7:RLBench 操作成功率

🚧 具身智能Agents安全挑战

具身人工智能的迅猛进展,凸显了对更先进、更一体化模型的迫切需求——这些模型必须能够感知、解读并预测环境动态。在此背景下,世界模型(World Models, WMs) 被提出,旨在赋予具身智能体预见未来环境状态填补知识缺口的能力,从而增强其规划与执行行动的水平。

自动驾驶或机器人领域中世界模型的示意图。当前观测和条件被用于预测未来观测,任务包括新场景(黄色)或控制动作(蓝色)的生成。我们的病理标准使得能够对这两个任务生成的输出进行安全性评估。

然而,当模型与具身智能体深度耦合时,确保预测结果对智能体自身及环境均安全便成为根本前提。本文围绕自动驾驶与机器人两大领域,对世界模型进行了全面的文献综述,并特别关注场景生成控制生成任务的安全隐患。开展了实证分析:收集并检验当前最先进模型的预测输出,识别并归类常见故障(文中称为 pathologies),并对结果给予量化评估。

图 2:当前最优(SoTA)世界模型在场景生成任务中的典型故障示例。

  • Visual Quality:MagicDrive-DiT 生成的帧出现模糊与失真
  • Temporal Consistency:Open-Sora 的时序不一致导致物体“闪现”
  • Traffic Adherence:Comsos 违反交通规则(红灯通行)
  • Physical Conformity:Vista 出现车辆漂浮的物理违规
  • Condition Consistency:This&That 输出与文本提示不符

图 3:当前最优世界模型在控制生成任务中的典型故障示例。
(a) RoboGen 抓取姿态异常
(b) Octo 轨迹与指令条件不一致 (c)(d) MILE 产生碰撞与物理违规转存失败,建议直接上传图片文件

A Comprehensive Survey on World Models for Embodied AI https://arxiv.org/html/2510.16732https://github.com/Li-Zn-H/AwesomeWorldModelshttps://arxiv.org/pdf/2510.05865The Safety Challenge of World Models for Embodied AI Agents: A Review