5B参数,第一次证明组合泛化能力。有人说,这是机器人的"GPT-2时刻"。
01
今天聊一个让我有点兴奋的技术突破。
4月17日,Physical Intelligence发布了新模型π0.7。这家成立仅两年的公司,在机器人领域投下了一颗深水炸弹。
核心突破就一句话:机器人终于能"举一反三"了。
02
什么叫"举一反三"?
你教会机器人切菜、教会它开燃气、教会它翻炒。当你想吃番茄炒蛋的时候,虽然从来没有专门教过它,但它能把这三个技能组合起来,完成一道新菜。
这就是组合泛化能力。
大语言模型早就具备这种能力了。你问它"为什么月亮总是一面朝向我们",它从来没学过这个问题,但它能组合学过的物理知识和推理能力给你一个正确的答案。
但机器人一直做不到。
以前的机器人,一个任务、一个模型。学会折叠衬衫,就只会折叠衬衫。换一个新厨房布局,它就"傻眼"了。
03
π0.7怎么做到的?
技术细节有点复杂,但核心思想很精妙。
简单说:他们改变了数据的"说明书"。
以前的训练数据,只有一句话:"清理冰箱"。
π0.7的训练数据,有四层信息:
-
任务指令:"打开冰箱"
-
子目标图像:下一秒画面应该长什么样
-
策略元数据:这条数据质量几分、有没有出错
-
控制模态:用的是关节控制还是末端执行器控制
有了这些丰富的context,模型不仅知道"做什么",还知道"怎么做"、"做得好不好"。
于是它就能从失败数据里学习、从其他机器人的数据里学习、甚至从人类视频里学习——这些数据以前都是"噪音",现在全变成了有用的信号。
04
效果怎么样?
论文里有两个很炸的demo。
第一个:空气炸锅烤红薯
模型从未见过完整的"空气炸锅烤红薯"任务。但当研究者用自然语言逐步指令——"打开空气炸锅"、"拿起红薯"、"把红薯放进炸篮"、"关闭炸篮"——π0.7能精准跟随这些指令,完成整个任务。
最初成功率只有5%。花了半小时优化提示工程后,成功率跃升至95%。
研究者后来找到了它学会这个任务的原因:训练数据里只有两段相关片段——一段是"关闭空气炸锅",标注为"把炸篮推进空气炸锅";另一段是"把空气炸锅的炸篮放在台面最左边"。
这两段完全不相关的数据,被模型组合成了新技能。
第二个:跨本体迁移
研究者把π0.7部署到一台完全不同的机械臂——双臂UR5e工业系统。这台机器人从未收集过任何折叠衣物的数据。
结果:π0.7在折叠T恤任务上的进度达到85.6%,与10名拥有375小时操作经验的顶级人类操作员(零样本)的90.9%基本打平。
更有意思的是,π0.7采用的抓取策略与训练数据中的完全不同。人类操作员用倾斜夹爪贴住桌面抓取;π0.7在UR5e上自发采用了垂直抓取——因为UR5e手臂更长、更重,垂直抓取更适合它的运动学特性。
它不是在复制运动轨迹,而是在理解任务目标后,找到适合自己身体的新解法。
05
还有一个反直觉的发现。
论文里有个实验:把叠衣服的数据按质量分成四档——top30%、top50%、top80%、全部数据。然后分别训练两个版本,一个加元数据标签,一个不加。
结果:
-
不加元数据的版本:数据越多,性能越差(低质量数据把模型带歪了)
-
加元数据的版本:数据越多,性能越好(哪怕混了大量低质量数据)
这说明什么?
过去大家觉得"数据清洗"是训练机器人的关键难题。但这个实验证明:数据清洗可能是个伪问题。你不需要清洗数据,只需要告诉模型"这条数据质量几分、用了什么策略"。
模型自己能学会分辨好坏。
最后
物理学家格雷克·莱文(Sergey Levine)评价这个突破时说了一句话:
"一旦模型从'只能做收集过数据的事'变成'开始重组出新事',能力就会超线性地随数据增长。"
大语言模型走过了从GPT-1到GPT-2的跃升,才展现出这种组合泛化能力。机器人的GPT-2时刻,可能正在到来。
当然,现在还只是早期。机器人在复杂环境下的稳定性、实时响应能力、与物理世界的交互精度,都还有很长的路要走。
但方向是对的。
关于作者
作者:近 20 年技术生涯,待过大厂也创过业。 懂大厂的规范与困境,也懂创业公司的敏捷与无奈。 懂技术也懂商业,实践用技术重构传统业务。公众号「AI 提效随笔」主理人。
欢迎转发,转载请注明出处。
📌 觉得有用?欢迎:
点赞 - 让更多人看到
转发 - 分享给需要的同事/朋友
关注 - 不错过后续更多精彩内容分享