Generalist之后，罗剑岚团队推出LWD，也要变革具身智能训练范式这一次，具身智能的范式算是彻底升级了。智元机器

这一次，具身智能的范式算是彻底升级了。

智元机器人的办公室里，最近员工们一上班就能看到机器人熟练地切着水果：

有梨有黄瓜，一通操作完了之后装进破壁机，打成了健康饮料端上来：

同样一套设备也能玩转调酒的全套流程：

或是做工夫茶、整理商品货架、打包鞋盒等各种任务：

之前每台机器人只能完成一个任务，现在基于同一个模型的机器人可以承接大量不同任务。而且，在真实世界中持续部署的过程中，它们的性能还会持续不断地提升。

这么全面的能力是如何做到的？答案是直接在真实环境中搞大规模分布式强化学习训练。它们使用的是全新的具身智能训练范式：面向通用机器人策略的分布式多机强化学习（LWD）。这一套技术捅破了当前VLA的「天花板」。

LWD

启动物理世界的飞轮

最近一段时间，VLA（视觉 - 语言 - 动作）大模型出现，通过端到端的训练范式让机器人具备了通用泛化能力：只需要收集图像数据，读取人类自然语言指令，大模型就能将视觉和语言转化为空间特征，直接输出机械臂各个关节的角度和速度，进而完成任务。

但在物理世界里，VLA 具身智能的表现仍然算不上可靠。在长程任务和复杂条件上，机器人频频翻车。工程师往往只能将失败的案例（Corner Case）记录下来，让操作员针对特定情况再进行几十次遥操作演示，重新微调模型。

这就形成了一个折磨人的「打地鼠」模式：物理世界的不可控因素是无穷无尽的，只要遇到没见过的「地鼠」，机器人就会停摆，只能等待人类工程师来打补丁。

研究人员认为，改变这一现状的核心点在于把外部提供的人工监督，改为机器人自身的交互经验。

LWD（Learning While Deploying，部署中学习）是一套让通才 VLA 策略在真实世界部署中持续自主改进的可扩展强化学习系统，在业内首次实现了具身 VLA 的大规模 RL 预训练 + 后训练。该工作由上海创智学院和智元机器人联合发布，创智学院导师，智元首席科学家罗剑岚老师团队完成。

技术报告：《Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies》
链接：finch-static.agibot.com/LWD/lwd-pap…
项目页面：finch.agibot.com/research/lw…

这是对具身智能训练逻辑的一次重构，把机器人从执行工具变成了一个「动态的智能网络」。此前的 AI 从出厂那一刻起就是产品智力的巅峰，面对物理世界的无尽变化时经常无所适从。LWD 打破了这种静态，构建了一个由真实世界强化学习（RL）驱动的数据飞轮。

想象一下特斯拉的影子模式（Shadow Mode），但 LWD 走得更深，后者是一个完全闭环的行动系统：

LWD 被定义为集群级（fleet-scale）的离线到在线（offline-to-online）强化学习框架，用于通用 VLA（视觉 - 语言 - 动作）策略的闭环持续训练。

它从一个预训练好的 VLA 模型开始，利用收集到的机器人数据，包括专家演示、历史成功与失败的 rollout 数据、以及人类探索边界的「把玩」数据来进行离线强化学习预训练。这些策略会被部署到机器人集群中，机器人在自主执行任务或由人类接管时，生成的数据会实时混合之前的离线数据，在云端持续更新策略，将进化后的更强「大脑」下发给物理集群。

这使得每一个被部署的机器人既在执行任务，也是提供学习信号的数据源。

LWD pipeline 与算法架构概览。

在罗剑岚团队的具身智能训练过程中，机器人集群被投放到真实环境中执行理货、搬运等任务。在执行过程中，机器人身上的传感器会记录下每一次触碰、每一次抓取、以及物体滑落的力觉变化。这些第一手资料被不断传回云端，强化学习算法开始对策略进行迭代。

数据飞轮的转速直接由集群自身的运行规模决定，部署的机器人越多、在真实世界里运行得越久，模型吸取经验的速度就越快。

不仅是实际部署的训练方式，LWD 的真正灵魂在于从失败中学习的机制。在传统的模仿学习眼里，只有人类专家的完美演示才是有效数据，这意味着 AI 只是在「背答案」。LWD 试图赋予机器人纠偏重试的本能，在其框架下，物理世界里所有类型的交互都能被提取出学习价值，那些搞砸的失败轨迹也会被全盘吸收。

这些都能教会它如何更好地在复杂的物理世界中维持稳态。

四大维度创新

为了让 VLA 能够在现实世界中持续训练，更好地消化大规模部署的机器人集群数据，攻克超长任务的误差累积，研究人员在 LWD 的底层架构上实现了四个维度的创新。

首先，LWD 的核心算法组件将价值评估与策略提取分离，这对于将离线到在线强化学习应用于基于流的 VLA 策略至关重要。在价值评估方面，LWD 引入了 DIVL（分布型隐式价值学习）。传统的强化学习需要去预测一个确切的标量分数，而 DIVL 则是用类似分类的方式拟合出一个「价值分布」，并能根据不确定性自适应调整策略。

这种方法不仅保留了评估的准确性，也很大程度上适应了物理世界中奖励稀疏、异构的集群经验回放（Fleet Replay）以及离线到在线的分布偏移场景，确保了即使在任务奖励极其稀疏、执行序列长达 3-5 分钟的情况下，系统依然能精准识别出到底是哪一秒的动作决定了最终的成败。

其次，针对目前先进 VLA 模型普遍采用的复杂流匹配（Flow-matching）架构，LWD 引入 QAM（伴随匹配 Q 学习）来进行策略提取。它将价值网络引导的动作改进转化为沿着流轨迹的局部回归目标，巧妙地绕过了生成模型难以直接反向传播的阻碍，让动作模型能高效地听懂优化指令，无需依赖显式的动作似然函数，还大幅降低了算力开销，保障了策略更新的稳定性。

第三项关键技术，是专为攻克「长程操作」难题设计的动态多步 TD 策略（Dynamic n-step TD Strategy）。在现实物理任务中，强化学习关注的奖励极度稀疏。该策略会根据任务长度和训练阶段，智能调整预判未来的「步长（n）」。

例如在离线训练长程任务时，它会将步长拉大到 n=10，让成功信号迅速反向传导穿透整个动作周期；而在实机在线部署时，又会切回到 n=1。

这就完美兼顾了信号回传的效率，同时极大地降低了模型在线更新时的方差，确保了实机迭代的稳定。

最后，要让 LWD 整个数据飞轮转动起来，还需要有一个基础设施底座。研究人员提出了分段异步 Actor-Learner 架构。在训练的过程中，现实世界中负责执行和采集数据的「机器人集群（Actor）」与云端集中算力更新策略的「学习器（Learner）」彻底解耦。两边的规模可以独立扩容，互不干扰。前端机器人「随缘」地异步上传残次或成功的轨迹数据，而后端云端通过引入中央协调器打上「快照」截断，把前端异步的乱流，变成了同步的、全局一致的数据集进行训练。

这套基础设施为整套训练机制带来了稳定性，前端产生的数据化为云端学习的经验仅需 41 秒，而云端更新模型后通过发布 - 订阅频道推送到机器人端，中位数延迟仅需 38 秒。

真实世界大考

5 分钟长程操作，超 90% 成功率

为了验证 LWD 的能力，这套新方法部署到了 16 台 Agibot G1 双臂机器人上，并在真实环境中进行了 8 项操作任务测试。

其中最能验出系统成色的是 4 项分钟级长程连贯操作任务：泡功夫茶、榨果汁、调鸡尾酒以及打包鞋盒。

LWD 进行的评估任务。

在目前大多数机器人的演示视频中，我们看到的往往是「抓起苹果放到篮子里」这种持续十几秒的单一动作，对于商业落地来说，这还远远不够。

真实世界中的具身智能任务通常需要持续 3 到 5 分钟，包含几十个连续的物理交互子步骤。在这个漫长的过程中，误差会像滚雪球一样累积。泡茶的第一步抓取时偏了 1 厘米，可能导致第三步倒水时洒出，最终导致第五步完全崩溃。

这就要求机器人不仅要动作精准，更需要拥有从中间错误状态中恢复的能力，以及跨越长周期的贡献度分配（Credit Assignment）能力。

在长任务压力测试下， LWD 的优势逐渐凸显了出来。在所有 8 项任务的综合评分中，经过在线训练强化的 LWD (Online) 平均成功率达到了 0.95。作为对比，传统的纯行为克隆（SFT）只有 0.76，引入了人类干预纠偏的 HG-DAgger 方案为 0.85，而业内先进的离线后训练方案 RECAP 也止步于 0.85。

各项任务的成功率实验结果。可见 LWD 实现了卓越的性能，在获得更高成功率的同时，显著缩短了周期时间。

八项真实世界操作任务的主要结果，涵盖了四项杂货补货任务和四项长周期任务。LWD (Online) 方法取得了最佳的总平均分（0.95），在全部四项长周期任务中均获最高分。

在最困难的长程任务组，LWD (Online) 取得了 0.91 的平均得分，甩开了 RECAP 的 0.77 和 Dagger-SOP 的 0.73。在速度上 LWD 也有优势，其平均循环时间比纯行为克隆短了 23.75 秒。

值得一提的是，在这项研究 652.5 小时的离线数据池中，人类专家的完美演示占 51.6%，有多达 34.8% 的内容是完全失败的交互轨迹，包括历史策略搞砸的 Rollout，以及人类为了帮助价值函数区分成功与失败行为而制造的失败数据。

LWD 赋予了机器人在复杂物理交互中极强的稳定性与从容感，完美印证了飞轮效应的设想。

具身智能也进入「下半场」了？

在人工智能的大语言模型领域，整个行业正在经历一次重要的共识转变：算力与资源的重心，正从预训练（Pre-train）向后训练（Post-training）倾斜。

去年，AI 研究领域兴起了对于大模型「下半场」的讨论：为什么现在的 AI 已经能在各种人类考试中超越人类，甚至拿奥赛金牌，但现实世界、经济和 GDP 却似乎没有发生翻天覆地的变化？

人们认为问题在于评估（Evaluation），我们要把真实世界的效用作为新的评估标准，设计出贴近现实世界的新任务和新范式，而不是简单地设计更难的考卷。基于这个思路，后训练正在得到前所未有的重视，近期的一系列基础大模型也获得了性能上的突破。

后训练正在变得越来越重要，这种思考现在也得到了真实物理世界的验证。LWD 的出现，或许会如同大模型领域的 RLHF 一样成为转折点，推动新一轮的 Scale Up。

未来的通用机器人，比拼的不再仅仅是出厂时喂了多少数据，而是在千行百业中部署后主动学习的速度。