Embodied AI（综述分析）| 豆包 MarsCode AI 刷题Embodied AI/Intelligence

Embodied AI/Intelligence，由 “本体”和 “智能体” 耦合而成且能够在复杂环境中执行任务的智能系统。通过在物理世界和数字世界的学习和进化，达到理解世界、互动交互并完成任务的目标。

eg. 人型机器人，家用服务机器人，无人车，六足机器人等

参考文章：github.com/chenzomi12/…

参考论文：arxiv.org/abs/2407.06…

具身智能机器人：能够听懂人类语言，能够分解任务，规划子任务，移动识别物体，与环境交互，并最终完成相应任务的机器人。
具身任务：像人类一样通过观察、移动、说话和与世界互动从而完成的一系列任务。
具身智能的实现分为基于大模型（LLM、VLM、VLA）的，和基于数学架构的

具身智能 = 视觉/触觉/听觉（多模态）感知输入 + 算法决策（多模态大模型 MLLM）+ 物理机械反馈执行 ------> 感知 + 决策 + 执行 具身智能的典型架构

vs Disembodied AI：离身智能，指的是没有物理实体，不能直接与物理世界交互的智能系统，eg. 在线的聊天机器人、计算机视觉系统

离身智能是旁观型标签学习方法，即从互联网收集到的文本、图片和视频数据集中学习；具身智能则是主动式感知通过与环境的互动，从视觉、语言和推理到一个人工具象，通过 "感知-行动" 回路，感受世界，对世界进行建模，从而采取行动进行验证并调整模型的过程

四大核心要素

本体：实际执行者，在物理或虚构世界进行感知和任务执行的机构，eg. 具有物理实体的机器人
智能体（Embodied Agents）：具身于本体之上的智能核心，负责感知、理解、决策、控制等的核心工作（小脑？）

理解语义信息，理解具体任务，理解环境变化，理解目标状态，控制本体完成任务，智能体设计是最核心的

“具有通用能力的 LLM、VLM、VLA 等模型，赋予了通用本体强大的泛化能力，使得机器人从程序执行导向转向任务目标导向，向通用机器人迈出了坚实的步伐”

“数据是泛化的关键，但涉及机器人的数据稀缺且昂贵”

学习和进化架构/学习数据：智能体通过和物理世界（虚拟的或真实的）的交互，来适应新环境、学习新知识并强化出新的解决问题方法，好的学习是提高机器人泛化能力的关键

采用虚拟仿真环境进行部分学习是合理的设计，比如英伟达的元宇宙开发平台Omniverse，就是构建了物理仿真的虚拟世界，来加速智能体的演进。

真实环境的复杂度通常超过仿真环境，如何耦合仿真和真实世界，进行高效率的迁移（Sim2Real），也是架构设计的关键。

强大的通用本体平台：如何解决硬件的关键零部件技术突破，形成具有优秀运动能力和操作能力的平台级通用机器人产品，将具身本体的可靠性、成本和通用能力做到平衡，是一个巨大的挑战。

技术路线

具身机器人
具身模拟器
具身感知
具身交互
具身智体
模拟到现实，包括具身WM、数据以及控制

具身机器人

具身智体与物理环境互动的形态，包括机器人、智能家电、智能眼镜、自动驾驶车辆等

分类：

固定基座型：如机械臂，常应用在实验室自动化合成、教育、工业领域
轮式机器人：机动性强，如物流车，常应用在物流、仓库、安全检查领域
履带机器人：强大的越野能力，常应用在农业、建筑和灾难现场领域
仿生物机器人：通过模拟自然生物的有效运动和功能，在复杂和动态的环境中执行任务
四足机器人：稳定+适应性强，常应用在复杂地形勘测、救援任务和军事应用领域
人型机器人：灵巧手为关键，常应用在服务业、医疗保健、协助互动等领域

具身访真

为了使智体能够与环境互动，必须构建一个物理的仿真模拟环境。需要考虑环境物理特性、目标属性及其相互作用的反馈结果。

基于底层仿真的通用平台：提供与物理世界高度相似的虚拟环境
- 应用：算法开发和模型训练
- 优势：具有显著的成本、时间和安全优势

基于真实场景的仿真平台：基于现实世界环境的平台，从现实世界收集数据，创建逼真的 3D 资源，并使用 UE5 和 Unity 等 3D 游戏引擎构建场景。
- 地位：具身智能研究首选

核心三模块

具身感知

负责获取和处理环境信息，为智能体的决策 Decision 和执行 Control/Action 提供依据 Input

全感知：构建包含操作环境各种知识的大规模数据库或者环境
具身交互感知：通过智能体与环境实时交互获取感知反馈，利用算法构建环境表征

传统机器人，只是模式识别二维图像中的目标后交给其他算法去处理；而具身感知的智体，必须在物理世界中移动并与环境交互，需要对 3D 空间和动态环境有更透彻的理解，即具备视觉感知和推理能力，理解场景中的三维关系。

主动感知
- Visual SLAM
- 3D Scene Understand
- Active Exploration

被动感知：
- 3D Visual Grounding：对整个场景进行建模，找到场景中具体各个物品等位置

- Visual Language Navigation（VLN）：要求机器人理解复杂多样的视觉观察，同时解释不同粒度的指令。视觉信息可以是过去轨迹的视频，也可以是一组历史当前观测图像。

具身决策（具身智体）

需要类似大脑的处理能力，以满足机器人在理解指令、分解任务、规划子任务、识别物体等需求。

高层具身任务规划：将抽象而复杂的任务分解为具体子任务。

低层具身行动规划：利用具身感知和具身交互模型，逐步实施子任务。

基于多模态大模型的决策，大模型充当智体，利用强大语言理解和生成能力，与人类进行多维度交互，更好地理解指令和意图，生成恰当的响应和行为。同时，通过具身化为物理实体的形势，能够将大模型能力从虚拟空间转移到物理世界。

近期技术发展：

具身执行（具身交互）

根据感知信息和决策指令，协调机器人各部件的运动，在物理或模拟空间中与人类和环境互动的场景下采取具体执行的动作，如具身任务问答、具身抓取

常见任务
- 具身任务问答：智体从第一人称视角探索环境，收集回答问题所需的信息；不仅要考虑采取哪些行动来探索环境，还需决定何时停止探索以回答问题

- 具身抓取：根据人类指令执行操作，如抓取、放置目标；需要语义理解、场景感知、决策和鲁棒控制规划，主要是将传统机器人运动学抓取与 LLM/VLM/MLM 大模型结合。

思考：具身感知、交互、控制与大模型之间的关系？

目前，具身大模型的能力，体现在具身感知、具身决策、具身执行中使用了大模型。业界具身智能大模型在实验室研发阶段，机器人通过视觉大模型对环境理解，语言大模型对任务进行分解，具身大模型生成机器人可执行的行为轨迹及代码。大模型让机器人在环境交互感知、自主规划、决策、行动方面有质的飞跃。

传统机器人算法：简单的环境需要复杂的人工算法实现

基于大模型的具身智能算法：理解更复杂的环境，自动化的做出更简单的操作指示

前沿技术案例：OpenAI&Figure 为代表的分层决策模型

执行步骤

high-level planer，大模型理解输入的信息，并整合任务、环境和本体感知信息，分解出子任务（智体）
low-level policy，使用强化学习模型，根据整合到的环境感知信息，给出具体执行子任务的动作规划指令（智体）
根据传统控制运动学的算法，输出机器人控制的力矩实现最终动作，实现让机器人物理执行动作，并得到进一步的信息和收益反馈，返回的（1）（2）步骤的模型

优点：分层架构实现难度相对简单，逻辑结构清晰
缺点：不同步骤间融合和一致性

前沿技术案例：Google RT-2 为代表的端到端模型（PaLM-E）

先在大规模互联网数据上预训练 VLMs（基座模型 PaLM），然后在机器人任务上微调（PaLM-E），利用大模型完成从输入到感知、推理、决策和行为指令输出的全过程

输入：任务和对象的组合

输出：一系列动作

关键：数据工程与数据稳定性

官网：palm-e.github.io/#demo

优点：
- E2E 方案看起来更加完美，减少误差传递；
- 具身大模型观察到了能力涌现能力；
- Scaling Law 是其智能迭代一条稳定路径。
缺点：
- 需要海量数据进行训练才能逐渐泛化：
- 全程调用大模型，资源消耗巨大；
- 机器人调用万亿规模大模型执行动作缓慢。

具身智能产业&思考

可能发生的产业规律：垂直领域的机器人（如某类工业机器人）会先到达拐点，随后才会出现通用工业机器人，最终才可能出现家用机器人

学术派	产业派
+ 技术领先，特别是 CV、大模型算法部分 + 喜欢讲家用机器人概念，如老人安抚、老年健康，未来面向 C 端的产业规模	+ 技术落后于学术派，主要对具身技术逐渐吸收，拿开源算法进行修改； + 结合自身优势、集中在垂直领域，项目不那么高大上，但是相对靠谱落地

具身智能的估值

硬件：如果没有自研硬件，从底层会严重受制于硬件公司；除非科研，产业落地会收到极大影响。
数据：看核心团队有没有大规模数据工程经验，数据工程经验积累尤为重要。
算法：要有顶级算法团队，即使使用开源算法，也需要顶级算法团队去消化适配

产业情况

	国内	海外
整机	优必选、达闼、非夕、宇树智元机器人、傅利叶、追觅科技、开普勒机器人逐际动力、星动纪元、加速进化、有鹿机器人、银河通用、星海图、星尘智能、Jacobi 机器人小米、小鹏汽车、科大讯飞、乐聚机器人、伊艾克斯、钢铁侠科技	Figure、Tesla
灵巧手	因时机器人、月泉仿生、忆海原识、钧舵机器人、蓝胖子
算力芯片	华为、寒武纪、地平线、灵汐、壁仞、燧原	Nvidia
减速器	绿的谐波、汉宇集团、吴志机电、中大力德、哈默纳科、住友、双环传动、秦川机床、纽卡特
执行器	三花智控、拓普集团、鸣志电器
电机	恒帅股份、步科股份、江苏雷利、乐川科技、大洋电机、雷赛智龙
丝杠	鼎智科技、秦川机床、日发精机、五洲新春、长盛轴承、贝斯特、恒而达
轴承	南方精工、力星股份
大厂加入		OpenAI、Google

challenge

现实场景的复杂多变，使得现阶段缺乏足够的场景数据来训练一个完全通用的大模型，进而让智能体自我进化。
耦合的本体，需要实际部署到真实环境中，才能够采集数据
对于关键业务，要求成功率，则仍然需要高质量的垂域数据。同时，通过层次化的智能体设计，将不同任务限定到特定领域，则是一个解决泛化和成功率的有效尝试

Question&Issue

为什么具身智能机器人必须是人型？

利用大量人类数据进行训练

双腿占地面积少，能适应各类复杂环境底盘。

工厂环境双腿可实现高重心搬运货物时保持平衡；

户外环境双腿可以通过复杂地形；、

室内环境双腿可适应各种物品的交互。

Embodied AI（综述分析）| 豆包 MarsCode AI 刷题