这一次,具身智能的范式算是彻底升级了。
智元机器人的办公室里,最近员工们一上班就能看到机器人熟练地切着水果:
有梨有黄瓜,一通操作完了之后装进破壁机,打成了健康饮料端上来:
同样一套设备也能玩转调酒的全套流程:
或是做工夫茶、整理商品货架、打包鞋盒等各种任务:
之前每台机器人只能完成一个任务,现在基于同一个模型的机器人可以承接大量不同任务。而且,在真实世界中持续部署的过程中,它们的性能还会持续不断地提升。
这么全面的能力是如何做到的?答案是直接在真实环境中搞大规模分布式强化学习训练。它们使用的是全新的具身智能训练范式:面向通用机器人策略的分布式多机强化学习(LWD)。这一套技术捅破了当前VLA的「天花板」。
LWD
启动物理世界的飞轮
最近一段时间,VLA(视觉 - 语言 - 动作)大模型出现,通过端到端的训练范式让机器人具备了通用泛化能力:只需要收集图像数据,读取人类自然语言指令,大模型就能将视觉和语言转化为空间特征,直接输出机械臂各个关节的角度和速度,进而完成任务。
但在物理世界里,VLA 具身智能的表现仍然算不上可靠。在长程任务和复杂条件上,机器人频频翻车。工程师往往只能将失败的案例(Corner Case)记录下来,让操作员针对特定情况再进行几十次遥操作演示,重新微调模型。
这就形成了一个折磨人的「打地鼠」模式:物理世界的不可控因素是无穷无尽的,只要遇到没见过的「地鼠」,机器人就会停摆,只能等待人类工程师来打补丁。
研究人员认为,改变这一现状的核心点在于把外部提供的人工监督,改为机器人自身的交互经验。
LWD(Learning While Deploying,部署中学习)是一套让通才 VLA 策略在真实世界部署中持续自主改进的可扩展强化学习系统,在业内首次实现了具身 VLA 的大规模 RL 预训练 + 后训练。该工作由上海创智学院和智元机器人联合发布,创智学院导师,智元首席科学家罗剑岚老师团队完成。
-
技术报告:《Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies》
这是对具身智能训练逻辑的一次重构,把机器人从执行工具变成了一个「动态的智能网络」。此前的 AI 从出厂那一刻起就是产品智力的巅峰,面对物理世界的无尽变化时经常无所适从。LWD 打破了这种静态,构建了一个由真实世界强化学习(RL)驱动的数据飞轮。
想象一下特斯拉的影子模式(Shadow Mode),但 LWD 走得更深,后者是一个完全闭环的行动系统:
LWD 被定义为集群级(fleet-scale)的离线到在线(offline-to-online)强化学习框架,用于通用 VLA(视觉 - 语言 - 动作)策略的闭环持续训练。
它从一个预训练好的 VLA 模型开始,利用收集到的机器人数据,包括专家演示、历史成功与失败的 rollout 数据、以及人类探索边界的「把玩」数据来进行离线强化学习预训练。这些策略会被部署到机器人集群中,机器人在自主执行任务或由人类接管时,生成的数据会实时混合之前的离线数据,在云端持续更新策略,将进化后的更强「大脑」下发给物理集群。
这使得每一个被部署的机器人既在执行任务,也是提供学习信号的数据源。
LWD pipeline 与算法架构概览。
在罗剑岚团队的具身智能训练过程中,机器人集群被投放到真实环境中执行理货、搬运等任务。在执行过程中,机器人身上的传感器会记录下每一次触碰、每一次抓取、以及物体滑落的力觉变化。这些第一手资料被不断传回云端,强化学习算法开始对策略进行迭代。
数据飞轮的转速直接由集群自身的运行规模决定,部署的机器人越多、在真实世界里运行得越久,模型吸取经验的速度就越快。
不仅是实际部署的训练方式,LWD 的真正灵魂在于从失败中学习的机制。在传统的模仿学习眼里,只有人类专家的完美演示才是有效数据,这意味着 AI 只是在「背答案」。LWD 试图赋予机器人纠偏重试的本能,在其框架下,物理世界里所有类型的交互都能被提取出学习价值,那些搞砸的失败轨迹也会被全盘吸收。
这些都能教会它如何更好地在复杂的物理世界中维持稳态。
四大维度创新
为了让 VLA 能够在现实世界中持续训练,更好地消化大规模部署的机器人集群数据,攻克超长任务的误差累积,研究人员在 LWD 的底层架构上实现了四个维度的创新。
首先,LWD 的核心算法组件将价值评估与策略提取分离,这对于将离线到在线强化学习应用于基于流的 VLA 策略至关重要。在价值评估方面,LWD 引入了 DIVL(分布型隐式价值学习)。传统的强化学习需要去预测一个确切的标量分数,而 DIVL 则是用类似分类的方式拟合出一个「价值分布」,并能根据不确定性自适应调整策略。
这种方法不仅保留了评估的准确性,也很大程度上适应了物理世界中奖励稀疏、异构的集群经验回放(Fleet Replay)以及离线到在线的分布偏移场景,确保了即使在任务奖励极其稀疏、执行序列长达 3-5 分钟的情况下,系统依然能精准识别出到底是哪一秒的动作决定了最终的成败。
其次,针对目前先进 VLA 模型普遍采用的复杂流匹配(Flow-matching)架构,LWD 引入 QAM(伴随匹配 Q 学习)来进行策略提取。它将价值网络引导的动作改进转化为沿着流轨迹的局部回归目标,巧妙地绕过了生成模型难以直接反向传播的阻碍,让动作模型能高效地听懂优化指令,无需依赖显式的动作似然函数,还大幅降低了算力开销,保障了策略更新的稳定性。
第三项关键技术,是专为攻克「长程操作」难题设计的动态多步 TD 策略(Dynamic n-step TD Strategy)。在现实物理任务中,强化学习关注的奖励极度稀疏。该策略会根据任务长度和训练阶段,智能调整预判未来的「步长(n)」。
例如在离线训练长程任务时,它会将步长拉大到 n=10,让成功信号迅速反向传导穿透整个动作周期;而在实机在线部署时,又会切回到 n=1。
这就完美兼顾了信号回传的效率,同时极大地降低了模型在线更新时的方差,确保了实机迭代的稳定。
最后,要让 LWD 整个数据飞轮转动起来,还需要有一个基础设施底座。研究人员提出了分段异步 Actor-Learner 架构。在训练的过程中,现实世界中负责执行和采集数据的「机器人集群(Actor)」与云端集中算力更新策略的「学习器(Learner)」彻底解耦。两边的规模可以独立扩容,互不干扰。前端机器人「随缘」地异步上传残次或成功的轨迹数据,而后端云端通过引入中央协调器打上「快照」截断,把前端异步的乱流,变成了同步的、全局一致的数据集进行训练。
这套基础设施为整套训练机制带来了稳定性,前端产生的数据化为云端学习的经验仅需 41 秒,而云端更新模型后通过发布 - 订阅频道推送到机器人端,中位数延迟仅需 38 秒。
真实世界大考
5 分钟长程操作,超 90% 成功率
为了验证 LWD 的能力,这套新方法部署到了 16 台 Agibot G1 双臂机器人上,并在真实环境中进行了 8 项操作任务测试。
其中最能验出系统成色的是 4 项分钟级长程连贯操作任务:泡功夫茶、榨果汁、调鸡尾酒以及打包鞋盒。
LWD 进行的评估任务。
在目前大多数机器人的演示视频中,我们看到的往往是「抓起苹果放到篮子里」这种持续十几秒的单一动作,对于商业落地来说,这还远远不够。
真实世界中的具身智能任务通常需要持续 3 到 5 分钟,包含几十个连续的物理交互子步骤。在这个漫长的过程中,误差会像滚雪球一样累积。泡茶的第一步抓取时偏了 1 厘米,可能导致第三步倒水时洒出,最终导致第五步完全崩溃。
这就要求机器人不仅要动作精准,更需要拥有从中间错误状态中恢复的能力,以及跨越长周期的贡献度分配(Credit Assignment)能力。
在长任务压力测试下, LWD 的优势逐渐凸显了出来。在所有 8 项任务的综合评分中,经过在线训练强化的 LWD (Online) 平均成功率达到了 0.95。作为对比,传统的纯行为克隆(SFT)只有 0.76,引入了人类干预纠偏的 HG-DAgger 方案为 0.85,而业内先进的离线后训练方案 RECAP 也止步于 0.85。
各项任务的成功率实验结果。可见 LWD 实现了卓越的性能,在获得更高成功率的同时,显著缩短了周期时间。
八项真实世界操作任务的主要结果,涵盖了四项杂货补货任务和四项长周期任务。LWD (Online) 方法取得了最佳的总平均分(0.95),在全部四项长周期任务中均获最高分。
在最困难的长程任务组,LWD (Online) 取得了 0.91 的平均得分,甩开了 RECAP 的 0.77 和 Dagger-SOP 的 0.73。在速度上 LWD 也有优势,其平均循环时间比纯行为克隆短了 23.75 秒。
值得一提的是,在这项研究 652.5 小时的离线数据池中,人类专家的完美演示占 51.6%,有多达 34.8% 的内容是完全失败的交互轨迹,包括历史策略搞砸的 Rollout,以及人类为了帮助价值函数区分成功与失败行为而制造的失败数据。
LWD 赋予了机器人在复杂物理交互中极强的稳定性与从容感,完美印证了飞轮效应的设想。
具身智能也进入「下半场」了?
在人工智能的大语言模型领域,整个行业正在经历一次重要的共识转变:算力与资源的重心,正从预训练(Pre-train)向后训练(Post-training)倾斜。
去年,AI 研究领域兴起了对于大模型「下半场」的讨论:为什么现在的 AI 已经能在各种人类考试中超越人类,甚至拿奥赛金牌,但现实世界、经济和 GDP 却似乎没有发生翻天覆地的变化?
人们认为问题在于评估(Evaluation),我们要把真实世界的效用作为新的评估标准,设计出贴近现实世界的新任务和新范式,而不是简单地设计更难的考卷。基于这个思路,后训练正在得到前所未有的重视,近期的一系列基础大模型也获得了性能上的突破。
后训练正在变得越来越重要,这种思考现在也得到了真实物理世界的验证。LWD 的出现,或许会如同大模型领域的 RLHF 一样成为转折点,推动新一轮的 Scale Up。
未来的通用机器人,比拼的不再仅仅是出厂时喂了多少数据,而是在千行百业中部署后主动学习的速度。