谷歌新一代具身AI大脑落地!波士顿机器狗解锁工业精准读表新技能

0 阅读3分钟

2026年4月17日,谷歌DeepMind正式发布GeminiRobotics-ER1.6机器人推理模型,这是GeminiRobotics系列第三代主打空间推理的具身智能模型,也是谷歌与波士顿动力重启合作后的首个重磅成果。DeepMind掌门人哈萨比斯第一时间官宣,搭载该模型的波士顿动力Spot机器狗,已实现工业仪表精准读取、任务自主判断等实用能力,标志着具身智能正式迈入物理世界自主推理的全新阶段。

ER1.6的核心定位是机器人的高层大脑,区别于直接控制机械动作的底层系统,它专注于环境理解、任务规划与工具调用,可无缝兼容谷歌搜索、VLA视觉语言模型及开发者自定义函数,为机器人提供顶层决策能力。相较于上一代ER1.5和Gemini3.0Flash,新模型在空间推理、物体计数、任务成功检测三大核心维度实现显著提升,还新增了工业场景刚需的仪表识别能力。

在工业落地测试中,搭载ER1.6的Spot机器狗可自主走到工厂压力表前,精准读取刻度以下数值,彻底解决传统机器人仅能拍照、无法解读数据的痛点。该模型读表分为放大细节、Pointing定位指针刻度、结合算法计算数值三步,测试数据显示,ER1.5仪表识别成功率仅23%,搭配AgenticVision的ER1.6直接飙升至93%,完全适配电力、化工等领域的仪表巡检需求。

作为空间推理的核心基石,ER1.6的Pointing能力全面升级,可精准识别、计数各类物体,不再出现错数、漏数或虚构物体的问题。同时,模型强化多视角推理功能,整合机器人头顶、手腕等多个摄像头画面,可靠判断任务是否完成,破解了真实场景中遮挡、光线变化导致的决策失误难题,让机器人真正懂得“何时开工、何时停工”。

安全性方面,ER1.6是谷歌迄今最安全的机器人模型。在对抗性空间推理任务中,其对安全指令的遵循度优于所有前代版本,可精准识别并遵守不处理危险液体、不搬运超20公斤物体等物理约束,安全隐患识别能力较Gemini3.0Flash高出6%-10%。

此次合作也是谷歌与波士顿动力的“再度携手”。谷歌2013年收购波士顿动力,2017年将其出售,2026年CES展上双方正式宣布重启合作,计划将GeminiRobotics模型部署至Atlas人形机器人。谷歌方面表示,公司不涉足硬件研发,旨在打造机器人领域的Android系统,为全球机器人厂商提供通用AI大脑。

GeminiRobotics-ER1.6的发布,让波士顿动力Spot从“能运动”的机械载体,升级为“会思考、能干活”的智能终端,大幅推动具身智能从技术演示走向工业实用,为机器人自主适配物理世界、落地复杂场景奠定了关键基础。