Physical Intelligence π0.7:机器人终于学会"举一反三"了

0 阅读5分钟

5B参数,第一次证明组合泛化能力。有人说,这是机器人的"GPT-2时刻"。


01

今天聊一个让我有点兴奋的技术突破。

4月17日,Physical Intelligence发布了新模型π0.7。这家成立仅两年的公司,在机器人领域投下了一颗深水炸弹。

核心突破就一句话:机器人终于能"举一反三"了。


02

什么叫"举一反三"?

你教会机器人切菜、教会它开燃气、教会它翻炒。当你想吃番茄炒蛋的时候,虽然从来没有专门教过它,但它能把这三个技能组合起来,完成一道新菜。

这就是组合泛化能力。

大语言模型早就具备这种能力了。你问它"为什么月亮总是一面朝向我们",它从来没学过这个问题,但它能组合学过的物理知识和推理能力给你一个正确的答案。

但机器人一直做不到。

以前的机器人,一个任务、一个模型。学会折叠衬衫,就只会折叠衬衫。换一个新厨房布局,它就"傻眼"了。


03

π0.7怎么做到的?

技术细节有点复杂,但核心思想很精妙。

简单说:他们改变了数据的"说明书"。

以前的训练数据,只有一句话:"清理冰箱"。

π0.7的训练数据,有四层信息:

  • 任务指令:"打开冰箱"

  • 子目标图像:下一秒画面应该长什么样

  • 策略元数据:这条数据质量几分、有没有出错

  • 控制模态:用的是关节控制还是末端执行器控制

有了这些丰富的context,模型不仅知道"做什么",还知道"怎么做"、"做得好不好"。

于是它就能从失败数据里学习、从其他机器人的数据里学习、甚至从人类视频里学习——这些数据以前都是"噪音",现在全变成了有用的信号。


04

效果怎么样?

论文里有两个很炸的demo。

第一个:空气炸锅烤红薯

模型从未见过完整的"空气炸锅烤红薯"任务。但当研究者用自然语言逐步指令——"打开空气炸锅"、"拿起红薯"、"把红薯放进炸篮"、"关闭炸篮"——π0.7能精准跟随这些指令,完成整个任务。

最初成功率只有5%。花了半小时优化提示工程后,成功率跃升至95%。

研究者后来找到了它学会这个任务的原因:训练数据里只有两段相关片段——一段是"关闭空气炸锅",标注为"把炸篮推进空气炸锅";另一段是"把空气炸锅的炸篮放在台面最左边"。

这两段完全不相关的数据,被模型组合成了新技能。

第二个:跨本体迁移

研究者把π0.7部署到一台完全不同的机械臂——双臂UR5e工业系统。这台机器人从未收集过任何折叠衣物的数据。

结果:π0.7在折叠T恤任务上的进度达到85.6%,与10名拥有375小时操作经验的顶级人类操作员(零样本)的90.9%基本打平。

更有意思的是,π0.7采用的抓取策略与训练数据中的完全不同。人类操作员用倾斜夹爪贴住桌面抓取;π0.7在UR5e上自发采用了垂直抓取——因为UR5e手臂更长、更重,垂直抓取更适合它的运动学特性。

它不是在复制运动轨迹,而是在理解任务目标后,找到适合自己身体的新解法。


05

还有一个反直觉的发现。

论文里有个实验:把叠衣服的数据按质量分成四档——top30%、top50%、top80%、全部数据。然后分别训练两个版本,一个加元数据标签,一个不加。

结果:

  • 不加元数据的版本:数据越多,性能越差(低质量数据把模型带歪了)

  • 加元数据的版本:数据越多,性能越好(哪怕混了大量低质量数据)

这说明什么?

过去大家觉得"数据清洗"是训练机器人的关键难题。但这个实验证明:数据清洗可能是个伪问题。你不需要清洗数据,只需要告诉模型"这条数据质量几分、用了什么策略"。

模型自己能学会分辨好坏。


最后

物理学家格雷克·莱文(Sergey Levine)评价这个突破时说了一句话:

"一旦模型从'只能做收集过数据的事'变成'开始重组出新事',能力就会超线性地随数据增长。"

大语言模型走过了从GPT-1到GPT-2的跃升,才展现出这种组合泛化能力。机器人的GPT-2时刻,可能正在到来。

当然,现在还只是早期。机器人在复杂环境下的稳定性、实时响应能力、与物理世界的交互精度,都还有很长的路要走。

但方向是对的。


关于作者

作者:近 20 年技术生涯,待过大厂也创过业。 懂大厂的规范与困境,也懂创业公司的敏捷与无奈。 懂技术也懂商业,实践用技术重构传统业务。公众号「AI 提效随笔」主理人。

欢迎转发,转载请注明出处。


📌 觉得有用?欢迎:

点赞 - 让更多人看到

转发 - 分享给需要的同事/朋友

关注 - 不错过后续更多精彩内容分享