Physical Intelligence π0.7：机器人终于学会"举一反三"了5B参数，第一次证明组合泛化能力。有人

5B参数，第一次证明组合泛化能力。有人说，这是机器人的"GPT-2时刻"。

01

今天聊一个让我有点兴奋的技术突破。

4月17日，Physical Intelligence发布了新模型π0.7。这家成立仅两年的公司，在机器人领域投下了一颗深水炸弹。

核心突破就一句话：机器人终于能"举一反三"了。

02 什么叫"举一反三"？

你教会机器人切菜、教会它开燃气、教会它翻炒。当你想吃番茄炒蛋的时候，虽然从来没有专门教过它，但它能把这三个技能组合起来，完成一道新菜。

这就是组合泛化能力。

大语言模型早就具备这种能力了。你问它"为什么月亮总是一面朝向我们"，它从来没学过这个问题，但它能组合学过的物理知识和推理能力给你一个正确的答案。

但机器人一直做不到。

以前的机器人，一个任务、一个模型。学会折叠衬衫，就只会折叠衬衫。换一个新厨房布局，它就"傻眼"了。

03 π0.7怎么做到的？

技术细节有点复杂，但核心思想很精妙。

简单说：他们改变了数据的"说明书"。

以前的训练数据，只有一句话："清理冰箱"。

π0.7的训练数据，有四层信息：

任务指令："打开冰箱"
子目标图像：下一秒画面应该长什么样
策略元数据：这条数据质量几分、有没有出错
控制模态：用的是关节控制还是末端执行器控制

有了这些丰富的context，模型不仅知道"做什么"，还知道"怎么做"、"做得好不好"。

于是它就能从失败数据里学习、从其他机器人的数据里学习、甚至从人类视频里学习——这些数据以前都是"噪音"，现在全变成了有用的信号。

04 效果怎么样？

论文里有两个很炸的demo。

第一个：空气炸锅烤红薯

模型从未见过完整的"空气炸锅烤红薯"任务。但当研究者用自然语言逐步指令——"打开空气炸锅"、"拿起红薯"、"把红薯放进炸篮"、"关闭炸篮"——π0.7能精准跟随这些指令，完成整个任务。

最初成功率只有5%。花了半小时优化提示工程后，成功率跃升至95%。

研究者后来找到了它学会这个任务的原因：训练数据里只有两段相关片段——一段是"关闭空气炸锅"，标注为"把炸篮推进空气炸锅"；另一段是"把空气炸锅的炸篮放在台面最左边"。

这两段完全不相关的数据，被模型组合成了新技能。

第二个：跨本体迁移

研究者把π0.7部署到一台完全不同的机械臂——双臂UR5e工业系统。这台机器人从未收集过任何折叠衣物的数据。

结果：π0.7在折叠T恤任务上的进度达到85.6%，与10名拥有375小时操作经验的顶级人类操作员（零样本）的90.9%基本打平。

更有意思的是，π0.7采用的抓取策略与训练数据中的完全不同。人类操作员用倾斜夹爪贴住桌面抓取；π0.7在UR5e上自发采用了垂直抓取——因为UR5e手臂更长、更重，垂直抓取更适合它的运动学特性。

它不是在复制运动轨迹，而是在理解任务目标后，找到适合自己身体的新解法。

05 还有一个反直觉的发现。

论文里有个实验：把叠衣服的数据按质量分成四档——top30%、top50%、top80%、全部数据。然后分别训练两个版本，一个加元数据标签，一个不加。

结果：

不加元数据的版本：数据越多，性能越差（低质量数据把模型带歪了）
加元数据的版本：数据越多，性能越好（哪怕混了大量低质量数据）

这说明什么？

过去大家觉得"数据清洗"是训练机器人的关键难题。但这个实验证明：数据清洗可能是个伪问题。你不需要清洗数据，只需要告诉模型"这条数据质量几分、用了什么策略"。

模型自己能学会分辨好坏。

最后

物理学家格雷克·莱文（Sergey Levine）评价这个突破时说了一句话：

"一旦模型从'只能做收集过数据的事'变成'开始重组出新事'，能力就会超线性地随数据增长。"

大语言模型走过了从GPT-1到GPT-2的跃升，才展现出这种组合泛化能力。机器人的GPT-2时刻，可能正在到来。

当然，现在还只是早期。机器人在复杂环境下的稳定性、实时响应能力、与物理世界的交互精度，都还有很长的路要走。

但方向是对的。

关于作者

作者：近 20 年技术生涯，待过大厂也创过业。懂大厂的规范与困境，也懂创业公司的敏捷与无奈。懂技术也懂商业，实践用技术重构传统业务。公众号「AI 提效随笔」主理人。

欢迎转发，转载请注明出处。

📌 觉得有用？欢迎：

点赞 - 让更多人看到

转发 - 分享给需要的同事/朋友

关注 - 不错过后续更多精彩内容分享