机器人操作领域长期被硬件形态不一和数据格式破碎所困扰。不过,高德 AMAP CV Lab 近期发布的 ABot-M0 有可能彻底改变这个尴尬的局面了。
作为一个具身操作基座模型,它验证了一个通用大脑适配多种机器人形态的可行性。在 Libero-Plus 等权威测试中,该模型的表现刷新了行业纪录,成功率大幅领先此前的标杆方案 Pi0。
统一的数据基石 UniACT 数据集
机器人研究的难点之一在于数据无法通用。不同型号机器人的动作表达和坐标系各异,导致数据难以规模化利用。ABot-M0 团队构建了 UniACT 数据集,这是目前非私有领域规模最大的具身操作数据集。
该数据集整合了 OXE、AgiBot-Beta 等六个主流公开源,包含 600 万条以上的真实操作轨迹,交互总时长超过 9500 小时。为了让这些数据发挥合力,团队建立了一套标准化的处理管线。所有的动作被统一转换成末端执行器坐标系下的增量动作,并采用旋转向量表示方向。针对单臂和双臂机器人的并存问题,团队采用了补齐策略,让单臂数据在训练中被视为双臂架构的一部分,从而实现了单一参数模型对不同肢体结构的兼容。
动作流形学习算法 AML
在生成式模型中,传统的扩散模型习惯于预测噪声。然而 ABot-M0 团队提出了动作流形假设。他们认为,机器人的有效动作序列并不在高维空间中随机分布,而是存在于一个受物理定律和任务逻辑约束的低维、平滑流形上。
基于这一认知,ABot-M0 采用了 AML 算法。该算法利用 DiT 骨干网络直接预测清晰的动作序列,而不是通过反复去噪来拟合目标。这种做法将学习重心从处理杂乱无章的噪声转移到了投射可行路径上。实验结果表明,AML 在处理长序列动作时表现得更加稳定,且解码速度极快,解决了机器人控制中常见的抖动和不连续问题。
感知层面的语义与几何双流架构
ABot-M0 的感知能力由 4B 参数规模的视觉语言模型 Qwen3-VL 提供支撑。研究发现,经过大规模预训练后,VLM 的深层特征已经具备了理解动作语义的能力,不再需要额外的动作查询指令来辅助。
为了补齐视觉模型在 3D 空间推理上的短板,ABot-M0 引入了模块化的感知机制。它可以像拼积木一样接入外部的 3D 增强模块,比如 VGGT 或者 Qwen-Image-Edit。这种设计允许模型在不改动核心骨干网络的情况下,通过注入几何先验和合成多视角图像来增强空间感。在需要毫米级精度的精细操作任务中,这种架构展现出了明显的优势。
权威测试表现
在 Libero-Plus 测试中,ABot-M0 取得了 80.5% 的成功率。在涉及 24 个复杂任务的 RoboCasa 环境中,它以 58.3% 的成绩领先于其他同类模型。这些数据证明了 ABot-M0 在通用底座能力上的成熟度,能够应对从工业操作到家庭场景的各种挑战。
环境安装与部署
ABot-M0 需要在 Python 环境下运行。
1. 基础代码获取
首先克隆项目主仓库以及必要的感知增强组件。
git clone https://github.com/amap-cvlab/ABot-Manipulation.git
git clone https://github.com/facebookresearch/vggt.git
cd ABot-Manipulation
2.环境配置
为了方便操作,用 ServBay 来管理 Python 环境,它提供了多版本 Python 支持。在 ServBay 面板下载好 Python 3.14,然后在终端执行以下操作。
# ServBay 用户可以直接使用其提供的 Python 环境,无需创建虚拟环境
# 安装项目所需的依赖组件
pip install -r requirements.txt
# 安装 FlashAttention2 提升计算效率
pip install flash-attn --no-build-isolation
3. 核心组件与插件安装
将 3D 感知模块和 ABot 项目安装到当前的开发环境中。
# 安装几何感知模块 vggt
pip install -e ../vggt
# 安装 ABot 模型本体
pip install -e .
4. 数据管线应用
如果需要处理自定义的轨迹数据,可以使用项目中开源的标准化工具链。这套工具可以将各种原始的机器人操作录像转换成符合 UniACT 标准的预训练格式,方便进行后续的微调。
最后
目前 ABot-M0 已经全面开源了算法架构、模型权重以及数据处理管线。这种全方位的开放模式旨在降低具身智能的准入门槛,让开发者能够跳过底层架构的重复劳动,直接进入上层应用场景的开发阶段。
目前该项目的所有代码、模型权重以及数据流水线均已发布在 GitHub,开发者可以根据具体业务场景进行适配。