某机构推出 Astra:一种用于自主机器人导航的双模型架构
某机构推出了 Astra,这是一种创新的双模型架构,旨在革新机器人在复杂室内环境中的导航能力。
从工业制造到日常生活,机器人应用日益广泛,这凸显了对先进导航系统的迫切需求。然而,当前的机器人导航系统在多样且复杂的室内环境中面临重大挑战,暴露了传统方法的局限性。为了解决“我在哪里?”、“我要去哪里?”以及“我该如何到达?”这些根本问题,某机构开发了 Astra,这是一种创新的双模型架构,旨在克服这些传统导航瓶颈,赋能通用移动机器人。
传统导航系统通常由多个较小的、常基于规则的模块组成,以处理目标定位、自身定位和路径规划等核心挑战。目标定位涉及理解自然语言或图像线索,以在地图上 pinpoint 目的地。自身定位要求机器人在地图内确定其精确位置,这在仓库等重复性环境中尤其具有挑战性,传统方法通常依赖人工地标(如二维码)。路径规划进一步细分为用于粗略路线生成的全局规划和用于实时避障及到达中间路径点的局部规划。
尽管基础模型在集成多个小模型以处理更广泛任务方面展现出前景,但实现全面导航所需的最优模型数量及其有效集成仍是一个未解之谜。
某机构的 Astra(其论文题为“Astra:通过分层多模态学习迈向通用移动机器人”,网站:astra-mobility.github.io/)解决了这些局限性。遵… 1/系统 2 范式,Astra 包含两个主要子模型:Astra-Global 和 Astra-Local。Astra-Global 处理低频任务,如目标定位和自身定位,而 Astra-Local 管理高频任务,如局部路径规划和里程计估计。这种架构有望彻底改变机器人在复杂室内空间的导航方式。
Astra-Global:用于全局定位的智能大脑
Astra-Global 作为 Astra 架构的智能核心,负责关键的低频任务:自身定位与目标定位。它作为一个多模态大语言模型,善于处理视觉和语言输入,以在地图上实现精确的全局定位。其优势在于利用混合拓扑-语义图作为上下文输入,使得模型能够基于查询图像或文本提示准确定位。
这一强大定位系统的构建始于离线建图。研究团队开发了一种离线方法来构建混合拓扑-语义图 G=(V,E,L):
- V(节点):关键帧,通过对输入视频进行时间下采样和通过运动恢复结构估计的 6 自由度相机位姿获得,作为编码相机位姿和地标参考的节点。
- E(边):无向边,基于相对节点位姿建立连接,对全局路径规划至关重要。
- L(地标):语义地标信息由 Astra-Global 从每个节点的视觉数据中提取,丰富了地图的语义理解。这些地标存储语义属性,并通过共视关系连接到多个节点。
在实际定位中,Astra-Global 的自身定位与目标定位能力利用了一个从粗到细的两阶段过程来实现视觉-语言定位。粗阶段分析输入图像和定位提示,检测地标,与预构建的地标地图建立对应关系,并基于视觉一致性过滤候选。然后,细阶段使用查询图像和粗阶段输出,从离线地图中采样参考地图节点,比较它们的视觉和位置信息,直接输出预测的位姿。
对于基于语言的目标定位,模型解释自然语言指令,利用地图中地标的功能描述识别相关地标,然后借助地标到节点的关联机制定位相关节点,检索目标图像和 6 自由度位姿。
为了赋予 Astra-Global 强大的定位能力,团队采用了精细的训练方法。以 Qwen2.5-VL 为骨干,结合了监督微调与群组相对策略优化。监督微调使用了用于各种任务的不同数据集,包括粗定位、细定位、共视检测和运动趋势估计。在群组相对策略优化阶段,使用基于规则的奖励函数(包括格式、地标提取、地图匹配和额外地标奖励)来训练视觉-语言定位能力。实验表明,群组相对策略优化显著提升了 Astra-Global 的零样本泛化能力,在未见过的家庭环境中达到了 99.9% 的定位精度,超越了仅使用监督微调的方法。
Astra-Local:用于局部规划的智能助手
Astra-Local 充当 Astra 高频任务的智能助手,是一个多任务网络,能够从传感器数据中高效生成局部路径并准确估计里程计。其架构包含三个核心组件:一个 4D 时空编码器、一个规划头和一个里程计头。
4D 时空编码器取代了传统移动机器人栈中的感知和预测模块。它从一个 3D 空间编码器开始,该编码器通过视觉 Transformer 和 Lift-Splat-Shoot 处理 N 个全向图像,将 2D 图像特征转换为 3D 体素特征。该 3D 编码器通过 3D 体积可微分神经渲染进行自监督学习训练。4D 时空编码器则在 3D 编码器的基础上构建,接收过去的体素特征和未来的时间戳作为输入,通过 ResNet 和 DiT 模块预测未来的体素特征,为规划和里程计提供当前及未来的环境表示。
规划头基于预训练的 4D 特征、机器人速度和任务信息,使用基于 Transformer 的流匹配生成可执行的轨迹。为防止碰撞,规划头引入了带掩码的欧几里得有符号距离场损失。该损失计算 3D 占用网格的欧几里得有符号距离场,并应用 2D 真实轨迹掩码,显著降低了碰撞率。实验证明,在分布外数据集上,该方法在碰撞率和综合得分方面优于其他方法。
里程计头使用当前和过去的 4D 特征以及其他传感器数据(如惯性测量单元、轮速计数据)来预测机器人的相对位姿。它训练一个 Transformer 模型来融合来自不同传感器的信息。每种传感器模态由一个特定的分词器处理,结合模态嵌入和时间位置嵌入,馈入 Transformer 编码器,最后使用 CLS 标记来预测相对位姿。实验表明,里程计头在多传感器融合和位姿估计方面表现出色,显著提高了旋转精度并降低了整体轨迹误差。
实验验证
在不同的室内环境(仓库、办公室、家庭)中进行了大量实验,以全面评估 Astra 的性能。
Astra-Global 的多模态定位能力通过各种实验得到验证,显示出在处理文本和图像定位查询方面的优越性能。对于目标定位,它能根据文本命令(例如“找到休息区”)准确识别匹配的图像和位姿。与传统的视觉位置识别方法相比,Astra-Global 在以下方面展现出显著优势:
- 细节捕捉:与依赖全局特征的视觉位置识别不同,Astra-Global 能精确捕捉房间号等细节,避免在相似场景中产生定位错误。
- 视角鲁棒性:基于语义地标,即使在相机角度发生大变化时,Astra-Global 也能保持稳定的定位,而视觉位置识别方法通常在此情况下失效。
- 位姿精度:Astra-Global 利用地标的空间关系选择最佳匹配位姿,显示出比传统视觉位置识别高得多的位姿精度(距离误差在 1 米内,角度误差在 5 度内),在仓库环境中提升了 30% 以上。
Astra-Local 的规划头和里程计头得到了 thorough 评估。规划头使用基于 Transformer 的流匹配和带掩码的欧几里得有符号距离场损失,在分布外数据集上的碰撞率、速度和综合得分方面优于动作分块 Transformer 和扩散策略等方法。这突显了带掩码的欧几里得有符号距离场损失在降低碰撞风险方面的有效性。
里程计头的性能在包括同步图像序列、惯性测量单元、轮速计数据和真实位姿的多模态数据集上进行了评估。与两帧 BEV-ODOM 基线相比,Astra-Local 的里程计头在多传感器融合和位姿估计方面显示出显著优势。整合惯性测量单元数据极大地提高了旋转估计精度,将整体轨迹误差降低到约 2%。进一步加入轮速计数据增强了尺度稳定性和估计精度,验证了其优越的多传感器数据融合能力。
Astra 为未来的发展和应用带来了巨大希望。其部署可以扩展到更复杂的室内环境,如大型购物中心、医院和图书馆,在这些场景中它可以协助完成精确的产品定位、高效的医疗物资运送和图书整理等任务。
然而,仍存在改进空间。对于 Astra-Global,虽然当前的地图表示在信息损失和 token 长度之间取得了平衡,但有时可能缺少关键的语义细节。未来的工作将专注于替代地图压缩方法,以在最大化语义信息保留的同时优化效率。此外,当前的单帧定位在特征稀少或高度重复的环境中可能会失败;未来的计划包括引入主动探索机制和时间推理,以实现更鲁棒的定位。
对于 Astra-Local,提高对分布外场景的鲁棒性至关重要,这需要改进模型架构和训练方法。重新设计回退系统以实现更紧密的集成和无缝切换也在计划之中,以提高系统稳定性。此外,集成指令跟随能力将使机器人能够理解和执行自然语言命令,扩展其在动态、以人为中心的环境中的可用性,并促进更自然的人机交互。FINISHED