Gemini Robotics 端侧模型:将AI引入本地机器人设备
介绍了一款高效、运行在设备端的机器人模型,该模型具备通用的灵巧操作能力和快速的任务适应能力。
今年三月,我们推出了Gemini Robotics——最先进的视觉-语言-动作(VLA)模型,将Gemini 2.0的多模态推理和现实世界理解能力带入物理世界。
今天,我们推出Gemini Robotics On-Device,这是专为在机器人设备本地运行而优化的、功能最强大的VLA模型。Gemini Robotics On-Device展现出强大的通用灵巧操作能力和任务泛化能力,并且经过优化,可在机器人本体上高效运行。
由于该模型的运行独立于数据网络,因此对于延迟敏感的应用非常有用,并能确保在间歇性或零网络连接环境下的鲁棒性。
我们还分享了一个Gemini Robotics SDK,旨在帮助开发者在自己的任务和环境中轻松评估Gemini Robotics On-Device,在我们的MuJoCo物理模拟器中测试模型,并快速将其适应到新的领域,只需最少50到100次演示即可。开发者可以通过注册我们的可信测试者计划来获取SDK。
模型能力与性能
Gemini Robotics On-Device是一个专为双臂机器人设计的机器人基础模型,旨在最小化计算资源需求。它构建于Gemini Robotics的任务泛化和灵巧操作能力之上,并具备以下特点:
- 专为灵巧操作的快速实验而设计。
- 可通过微调适应新任务,以提升性能。
- 经过优化,可在本地运行,实现低延迟推理。
Gemini Robotics On-Device在广泛的测试场景中实现了强大的视觉、语义和行为泛化,能够遵循自然语言指令,并完成诸如打开袋子拉链或折叠衣物等高灵巧度任务——所有这些操作都在机器人本体上直接完成。
在我们的评估中,端侧模型在完全本地运行的同时,展现出强大的泛化性能。
Gemini Robotics On-Device在更具挑战性的分布外任务和复杂多步指令方面也优于其他端侧替代方案。对于在此类场景下寻求最先进结果且不受端侧限制的开发者,我们也提供Gemini Robotics模型。
要了解有关我们评估的更多信息,请阅读我们的Gemini Robotics技术报告。
适应新任务,泛化到不同实体
Gemini Robotics On-Device是首个我们开放微调的VLA模型。虽然许多任务可以直接使用,但开发者也可以选择调整模型以在其应用中获得更佳性能。该模型能快速适应新任务,只需50到100次演示——这表明了这款端侧模型将其基础知识泛化到新任务的能力有多强。
在此,我们展示了Gemini Robotics On-Device在涉及微调新模型的任务上如何优于当前最佳的端侧VLA。我们在七个难度各异的灵巧操作任务上测试了该模型,包括拉上午餐盒拉链、抽卡片和倒沙拉酱。
我们进一步将Gemini Robotics On-Device模型适配到不同的机器人实体上。虽然我们仅使用ALOHA机器人训练模型,但我们成功地将其进一步适配到Apptronik公司的双臂Franka FR3机器人和Apollo人形机器人上。
在双臂Franka上,该模型执行通用指令跟随任务,包括处理未见过的物体和场景,完成如折叠裙子等灵巧任务,或执行需要精度和灵巧度的工业皮带装配任务。
在Apollo人形机器人上,我们将模型适配到一个显著不同的实体。同一个通用模型能够遵循自然语言指令,并以通用的方式操作不同的物体,包括以前未见过的物体。
负责任开发与安全
所有Gemini Robotics模型的开发都遵循我们的AI原则,并应用了涵盖语义和物理安全的整体安全方法。
实践中,我们使用Live API捕获语义和内容安全,并将模型与底层的安全关键控制器对接以执行动作。建议在我们最近开发的语义安全基准测试中评估端到端系统,并在所有层面进行红队演练,以暴露模型的安全漏洞。
负责任开发与创新团队持续分析并就所有Gemini Robotics模型对现实世界的影响提供建议,寻找最大化其社会影响和最小化风险的方法。随后,责任与安全委员会审查这些评估,提供反馈并整合到模型开发中,以帮助进一步最大化效益、最小化风险。
为了更深入地了解Gemini Robotics On-Device的使用情况和安全概况,并收集反馈,我们初步将其发布给一群经过筛选的可信测试者。
加速机器人领域的创新
Gemini Robotics On-Device标志着在使强大的机器人模型更易于访问和适应方面迈出了一步——我们的端侧解决方案将帮助机器人社区应对重要的延迟和连接挑战。
Gemini Robotics SDK将允许开发者根据其特定需求调整模型,从而进一步加速创新。通过我们的可信测试者计划注册以获取模型和SDK访问权限。
我们期待着看到机器人社区将使用这些新工具构建出什么,因为我们也在持续探索将AI带入物理世界的未来。
注册可信测试者计划 阅读Gemini Robotics技术报告 在模拟环境中测试ALOHA机器人
致谢
衷心感谢为该项目做出贡献、提供建议和支持的各位同事(此处省略具体姓名列表以保持简洁)。FINISHED