《LDA-1B》 2026.3.10《LDA-1B：Scaling Latent Dynamics Action Mod

《LDA-1B：Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion》

这篇论文试图回答一个对机器人基础模型（Robot Foundation Model）极为关键的问题：当我们真正迈向“大规模预训练”时，机器人系统究竟应该只模仿“高质量动作”，还是应该进一步学习隐藏在海量异构具身数据（Embodied Data）中的动力学知识（Dynamics Knowledge）？作者给出的答案相当鲜明——真正能支撑规模化突破的，不只是更大的行为克隆（Behavior Cloning），而是把策略（Policy）、前向动力学（Forward Dynamics）、逆向动力学（Inverse Dynamics）与视觉预测（Visual Forecasting）统一起来，在结构化潜在空间（Structured Latent Space）中共同训练。

📖 摘要

本文提出了一个 16 亿参数的机器人基础模型 LDA-1B，它通过“通用具身数据摄取（Universal Embodied Data Ingestion）”统一利用高质量动作数据、低质量动作数据与无动作人类视频，并在结构化的 DINO 潜在空间（DINO Latent Space）中联合学习策略、动力学与视觉预测，从而在接触丰富（Contact-rich）、灵巧操作（Dexterous）与长时程（Long-horizon）任务上显著优于已有强基线。

一、论文基本信息

论文标题：
LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion
作者：
Jiangran Lyu, Kai Liu, Xuheng Zhang, Haoran Liao, Yusen Feng, Wenxuan Zhu, Tingrui Shen, Jiayi Chen, Jiazhao Zhang, Yifei Dong, Wenbo Cui, Senmao Qi, Shuo Wang, Yixin Zheng, Mi Yan, Xuesong Shi, Haoran Li, Dongbin Zhao, Ming-Yu Liu, Zhizheng Zhang, Li Yi, Yizhou Wang, He Wang；主要来自北京大学（Peking University）、Galbot、中国科学院自动化研究所（CASIA）、北京智源人工智能研究院（BAAI）、清华大学（Tsinghua University）、中山大学（Sun Yat-sen University）与英伟达（NVIDIA）。
出处：
目前为 arXiv 预印本（Preprint），时间为 2026 年。
DOI/链接：
arXiv:2602.12215
项目主页：pku-epic.github.io/LDA

在这里插入图片描述

图示：
图 1 给出了全文最重要的“总论断”：LDA-1B 不是单纯扩大参数规模，而是通过统一摄取 3 万小时以上的异构具身数据，将高质量动作数据、低质量动作数据与无动作视频分别分配到策略学习、动力学学习和视觉预测中，在 DINO 潜在空间里联合建模，最终在多类操作任务上明显超过 π0.5 等强基线。

二、研究背景与动机

问题背景：
当前机器人基础模型的发展，明显受到了大语言模型（Large Language Model, LLM）和视觉语言模型（Vision-Language Model, VLM）的鼓舞。研究者希望像训练语言模型那样，通过大规模预训练得到通用机器人模型。但现实中，大多数方法仍建立在行为克隆之上，也就是从专家演示中直接学习“该做什么动作”。
现有方法的不足：
问题恰恰在这里暴露出来。行为克隆在定义上偏爱“干净、精确、专家级”的动作标签，因此只能高效吸收高质量演示，却难以充分利用那些更丰富、但更嘈杂的具身数据。大量低质量轨迹、人类操作视频、非标注交互过程，虽然蕴含着极其宝贵的物理先验（Physical Priors）和交互动力学（Interaction Dynamics），却经常被直接丢弃。换言之，现有方法把“动作最优性”当成了唯一货币，却忽视了“世界如何响应动作”这一更可迁移的知识。
本文动机：
作者的动机非常清楚：如果机器人基础模型想真正扩展到 foundation-level，它就不能只学“答案”，还必须学“因果过程”。因此，论文试图构建一种能够区分数据角色、允许不同质量数据各尽其用的统一训练范式。与此同时，作者还意识到，若继续在像素空间（Pixel Space）里预测未来，模型会把太多容量浪费在光照、纹理、背景等与操作因果无关的细节上，于是他们转向了更结构化、更语义化的 DINO 潜在表征。

在这里插入图片描述

图示：
图 2 展示了 LDA 的核心架构。模型以多模态扩散变换器（Multi-Modal Diffusion Transformer, MM-DiT）为主体，同时对动作块（Action Chunk）和未来视觉潜在表示进行去噪，在统一框架下实现策略学习、前向动力学、逆向动力学与视觉预测。图中最关键的设计，是动作流与视觉流各自保留模态特定的专家结构，但在共享自注意力（Self-Attention）层中交互。

三、核心方法与创新点

核心思想：
LDA-1B 的核心思想，可以概括为一句话：把“动作决策”与“世界演化”放进同一个潜在动力学模型里共同学习，并让不同来源、不同质量的数据在这个统一模型中承担不同职责。 高质量动作数据负责策略与动力学，低质量轨迹主要服务于动力学与视觉预测，无动作视频则补充视觉演化监督。这样一来，模型学习的不再只是“模仿”，而是“理解动作如何改变世界”。
创新点拆解：
第一，论文提出了“通用具身数据摄取（Universal Embodied Data Ingestion）”这一训练范式。它不是简单堆数据，而是按监督质量给数据分工：高质量数据教策略，低质量数据教动力学，无动作视频教未来视觉。这个设计非常重要，因为它把过去常被视为“噪声”的数据，重新定义成了“不同粒度的监督来源”。第二，作者构建了 EI-30k 数据集。这个数据集统一整理了超过 3 万小时的人类与机器人交互数据，覆盖真实世界、仿真环境、带动作标注的人类演示以及无动作视频。更关键的是，它们被标准化到统一格式，并在坐标系和动作表示上对齐，为大规模联合训练提供了基础设施。第三，论文不在像素空间中做未来预测，而是在 DINO 潜在空间中建模。这一步的学术含义相当深远：模型不再执着于重建每一个像素，而是更关注物体、空间关系和动作后果这种“可操作的语义结构”。这使得动力学学习更聚焦于真正重要的因果变化，而不是视觉表象的冗余扰动。第四，作者设计了 MM-DiT 结构以处理异步的视觉流和动作流。视觉帧以较低频率采样，动作则以更高频率保留细粒度控制信息；两条流在共享骨干中协同建模。这个设计既照顾了视觉状态变化较慢的事实，也保留了控制信号快速变化的本质。
技术细节：
论文将统一世界模型（Unified World Model, UWM）扩展为四类条件分布的联合学习：策略、前向动力学、逆向动力学和视觉规划（Visual Planning）。在形式上，它让模型同时对未来动作与未来视觉潜在表示进行去噪，从而以统一扩散框架承载多个训练目标。

训练目标由动作损失与观测损失构成，论文写成了如下形式：
$l_\theta^{action} = \mathbb{E}_{(o_{t:t+k}, a_{t+1:t+k}, \ell)\sim D,\ \tau_a\sim U(0, T_\tau),\ \epsilon_a\sim \mathcal{N}(0,I)} \left\| v_\theta^a - (\epsilon_a - a_{t+1:t+k}) \right\|_2^2$ $l_\theta^{obs} = \mathbb{E}_{(o_{t:t+k}, a_{t+1:t+k}, \ell)\sim D,\ \tau_o\sim U(0, T_\tau),\ \epsilon_o\sim \mathcal{N}(0,I)} \left\| v_\theta^o - (\epsilon_o - o_{t+1:t+k}) \right\|_2^2$ $l_\theta = l_\theta^{action} + l_\theta^{obs}$
这里面最值得注意的，不只是公式本身，而是它允许在不同任务条件下，有选择地激活动作损失或视觉损失。换句话说，同一个模型骨干能够根据任务嵌入（Task Embedding）切换角色：有时预测动作，有时预测未来状态，有时两者兼顾。在表征设计上，视觉目标采用预训练 DINO 编码器提取的潜在特征，而不是传统基于变分自编码器（Variational Autoencoder, VAE）的像素潜表示；动作则被统一表示为以手为中心（Hand-centric）的末端执行器运动，包括腕部位姿变化和手指构型。并且，为兼容夹爪与灵巧手，作者对不同末端执行器设计了统一动作空间，这一步为跨机器人形态学习奠定了基础。

在这里插入图片描述

图示：
图 3 展示了作者如何在人类手、夹爪、灵巧手等不同具身形态之间，手动对齐末端执行器坐标系。这个步骤看似工程细节，实则是跨数据源联合训练能否成立的关键。只有在“动作语义”被放到同一几何参考系中时，模型才可能真正共享动力学知识。

在这里插入图片描述

图示：
图 4 从时长分布、任务词频和数据构成三个角度统计了 EI-30k。它说明这不是一个单一来源的“洁净数据集”，而是由机器人数据、人类演示与无动作视频共同构成的庞大异构集合。论文真正重要的地方，不只是收集了更多数据，而是证明了这些不同数据源在统一训练中能够形成互补。

四、实验与结果分析（都说说）

数据集：
作者使用 EI-30k 作为预训练数据源，总量超过 3 万小时。其中包括 8030 小时真实机器人数据、8600 小时仿真机器人数据、7200 小时带动作的人类演示，以及 10000 小时无动作人类视频。这样的构成具有明显的“层级监督”特征：高质量与低质量、动作与无动作、真实与仿真，共同构成了一个可扩展的监督谱系。
基线模型：
论文对比了多个有代表性的机器人基础模型，包括 π0.5、GR00T-N1.6、StarVLA、UWM 以及作者复现的 GR00T-EI30k 等。比较是公平且有针对性的：有些基线强调策略学习，有些强调统一世界模型，而 LDA-1B 的目标则是展示——当数据规模与训练目标都扩张后，潜在动力学建模是否真的更具扩展性。

在这里插入图片描述

图示：
图 5 展示了真实世界实验中的多个机器人平台与末端执行器，包括 Galbot G1 搭载灵巧手、Unitree G1 搭载 BrainCo 灵巧手，以及带两指夹爪的 Galbot G1。图中任务涵盖夹取、双手协作、锤子拔钉、擦白板与翻盒子等，说明评测并非局限于单一操作范式。

在这里插入图片描述

图示：
图 6 比较了 LDA、GR00T-N1.6 与 π0.5 在真实世界夹爪任务上的成功率。LDA 在拾取放置、接触丰富操作、精细操作和长时程操作中整体领先，尤其在需要连续状态维护和误差恢复的任务上优势更明显。

在这里插入图片描述

图示：
图 7 给出了低自由度手与高自由度手上的真实世界灵巧操作结果。可以看到，随着控制维度增加和接触复杂度上升，基线方法性能明显下滑，而 LDA 仍保持较高成功率。这意味着它不仅学会了动作映射，更学会了动作如何在物体接触中产生后果。

4.1 仿真实验：RoboCasa-GR1 上的结果

在 RoboCasa-GR1 基准上，LDA-1B 取得了 55.4% 的平均成功率，超过原始 GR00T-N1.6 的 47.6%，也高于作者复现的、使用 EI-30k 高质量子集预训练的 GR00T-EI30k（51.3%）。这个结果说明，仅仅拥有更好的数据还不够；把策略与动力学统一进一个共同模型，才是进一步提升性能的原因之一。

在这里插入图片描述

图示：
图 8 展示了论文在 Pick and Place 任务上的泛化测试设置，包括新物体、变化背景与分布外位置（Out-of-Distribution Position, OOD Position）。这类设置用来检验模型究竟是在记忆视觉表面，还是在理解任务相关的可供性（Affordance）。

在这里插入图片描述

图示：
图 9 通过 DINO 特征的时间步可视化，展示了模型预测的未来潜在状态与真实潜在状态之间的对齐情况。它传达了一个极具说服力的信息：LDA 所学习的并非粗糙的“下一帧猜测”，而是可以沿时间演化保持语义一致性的潜在动力学。

在这里插入图片描述

图示：
图 10 是全文最有思想密度的一张图。上半部分显示，随着训练数据从 5k 小时扩展到 30k 小时，LDA 的动作预测误差持续下降；下半部分显示，在 0.1B 到 1B 的参数规模下，LDA 的扩展趋势也明显优于 UWM。作者借此证明：潜在表征、训练目标与数据利用方式，决定了“扩展”是否真能带来收益。

4.2 消融实验：为什么 LDA 有效

论文做了相当有分量的消融。首先，UWM 在原始设置下只有 14.2% 成功率，即便扩展到 1B 参数也只有 19.3%；把骨干替换成 MM-DiT 后，也只有 20.0%。这说明问题并不只是“模型不够大”，而是其像素级潜在空间本身不适合规模化动力学学习。相比之下，当作者把视觉目标从 VAE 潜在空间切换到 DINO 潜在空间后，模型性能从 20.0% 跃升到 55.4%。这几乎是论文中最关键的证据之一：语义结构化的潜在空间，是大规模世界模型真正可扩展的基础。 同时，去掉 MM-DiT 或把参数规模从 1B 降到 0.5B，性能都会下降，说明模型架构与参数扩张本身也是有效的；但它们的收益，是建立在正确表征空间和正确数据摄取机制之上的，而不是孤立存在的。

在这里插入图片描述

图示：
图 11 通过比较有动作命令与静止命令下的注意力差异，展示了模型如何把注意力集中到真正与动作后果相关的区域。例如推杯子的任务中，模型重点关注杯子的前缘和可能的运动轨迹，而不是无关背景。这说明 LDA 在一定程度上具备“动作—视觉因果对齐”的能力。

4.3 真实世界实验：接触丰富、灵巧、长时程，全都更强

在真实世界夹爪任务中，LDA 对未出现在预训练集中的 Galbot G1 仍能实现有效少样本适配（Few-shot Adaptation）。在简单拾取放置任务上，它达到了 80% 到 90% 的成功率；而在更困难的长时程任务中，比如“清理垃圾”这类需要双臂协同、工具使用与多步序列控制的任务，LDA 取得了 35% 的成功率，而 GR00T 与 π0.5 则为 0%。在灵巧手任务上，LDA 的优势更加鲜明。以拔钉任务为例，该任务要求精确控制力的方向并维持稳定接触，LDA 达到 80% 成功率；而在高自由度的翻面包任务中，LDA 达到 90%，远高于基线。这说明大规模人类数据所提供的潜在先验，确实能够迁移到高维灵巧控制中。

在这里插入图片描述

图示：
图 12 给出了多个 RoboCasa-GR1 任务中的定性对比。红圈标出了 GR00T 的典型失败模式，例如抓取滑落、放置偏移和操作碰撞；而 LDA 则能更好地预判动作后果，维持物体稳定并完成任务。这类图像证据对理解“动力学建模带来的收益”非常直观。

在这里插入图片描述

图示：
图 13 展示了真实世界实验所使用的三种平台配置：带两指夹爪的 Galbot G1、带 SharpaWave 灵巧手的 Galbot G1，以及带 BrainCo 灵巧手和 Zed Mini 相机的 Unitree G1。论文希望借此说明，LDA 的泛化能力并非局限于某一种固定本体。

在这里插入图片描述

图示：
图 14 以示例序列的方式展示了 Galbot G1 夹爪任务，覆盖拾取放置、接触丰富操作、精细操作与长时程操作四个类别。这张图的价值在于，它让人直观看到论文中的任务难度并不低，很多任务都需要接触建模与多步动作组织。

在这里插入图片描述

图示：
图 15 展示了两种机器人平台上的灵巧操作任务。上三行是 Unitree + BrainCo 的瓶子放置、开电脑、拔钉子；下两行是 Galbot + SharpaWave 的面包拾取与翻面包。这些任务对力控制、指间协调和持续接触的要求都明显高于普通抓取。

在这里插入图片描述

图示：
图 16 左列是原始 RGB 输入，中列是真实 DINO 特征，右列是模型预测的 DINO 特征。作者用这张图想说明：LDA 预测的不是像素细节，而是能够承载物体语义与空间关系的潜在表征，因此它更适合用于长时程推理与控制。

4.4 混合质量微调：低质量数据不再是包袱

这篇论文最值得反复回味的一点，是它没有把低质量数据视为污染，而是把它看作不同任务目标下的有效监督。在微调实验中，当加入低质量轨迹后，π0.5 的性能反而下降；但 LDA 在两个任务上都提升了 10%。这说明 LDA 的训练机制能够把低质量数据“消化”为动力学知识，而不是被其误导。

4.5 泛化与鲁棒性：模型是在看“任务相关性”，不是看“画面热闹”

在新物体、陌生背景和分布外初始位置的测试中，LDA 仍保持了明显优于基线的表现。作者据此认为，大规模潜在动力学预训练让模型更专注于任务关键可供性，而非背景纹理或表面视觉干扰。这一点，与动作条件注意力图中的观察是高度一致的：模型逐渐学会只关注那些会被动作真正“改变”的区域。

五、总结与展望

论文贡献：
这篇论文最核心的贡献，不只是提出了一个新模型，而是提出了一种新的规模化逻辑：机器人预训练不应只围绕“高质量动作监督”展开，而应在统一潜在动力学框架中，让不同质量、不同来源、不同监督粒度的数据共同参与。LDA-1B、EI-30k、DINO 潜在表征与 MM-DiT 共同构成了这一逻辑的四个支点。
个人思考：
我认为，这篇文章最有启发性的地方，在于它把机器人学习中的“数据洁癖”打破了。过去很多方法一味追求更纯净、更标准、更像专家的数据，但真实世界的具身智能从来不是在洁净环境中长出来的。真正决定系统上限的，往往不是你有没有最完美的标签，而是你有没有一个足够好的机制，把不完美的数据转化成结构化知识。当然，这篇论文也并非没有边界。首先，它仍依赖冻结的 DINO 特征，这意味着视觉表征与动力学并没有真正端到端共同进化；其次，它主要依靠自我中心视角（Egocentric View），对多视角、多传感器乃至触觉（Tactile）等信息的融合仍未展开；再者，数据角色的分配目前仍主要依赖人为设计，而不是模型自动发现。沿着这些方向继续推进，或许才是“世界模型式机器人基础模型”真正成熟的下一步。如果要用一句话来概括这篇论文，我会这样说：它真正推进的，不只是机器人该如何行动，而是机器人该如何从一个不完美、异质、充满噪声的世界中，提炼出足以支撑行动的因果结构。 这比单纯学会几个动作模板，要重要得多。