GigaAI最新重磅发布GigaBrain-0:世界模型驱动的VLA模型
大家好,我是AI算法工程师七月,曾在华为、阿里任职,技术栈广泛,爱好广泛,喜欢摄影、羽毛球。目前个人在烟台有一家企业星瀚科技。
- 关注公众号:智启七月,获取最新观察、思考和文章推送。
- 关注知乎:七月,获取最新观察、思考和文章推送。
- 关注CSDN:智启七月,获取最新观察、思考和文章推送。
- 关注稀土掘金:智启七月,获取最新观察、思考和文章推送。
- 网站1 :七月
- 网站2:zerodesk
我会在这里分享关于 编程技术、独立开发、行业资讯,思考感悟 等内容。爱好交友,想加群滴滴我,wx:swk15688532358,交流分享
如果本文能给你提供启发或帮助,欢迎动动小手指,一键三连 (点赞、评论、转发),给我一些支持和鼓励,谢谢。
作者:七月 链接:www.xinghehuimeng.com.cn 来源:七月 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
传送门
代码:GigaBrain-0: A World Model-Powered Vision-LanguageAction Model
上传视频封面
好的标题可以获得更多的推荐及关注者
GigaBrain-0发布
添加图片注释,不超过 140 字(可选)
在具身智能领域,视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型是实现通用机器人的核心支撑 —— 它需要将自然语言指令、视觉环境感知与机器人动作控制无缝融合,就像人类一样能够无缝衔接,让机器在真实世界中理解 “做什么” 并执行 “怎么做”。然而,当前 VLA 模型面临一个根本性瓶颈:对大规模真实机器人数据的强依赖。
真实世界数据采集不仅成本高昂(需专用机器人平台、人工标注)、耗时漫长(单任务数据采集可能持续数月),更存在 “多样性缺失” 问题 —— 实验室环境下的场景、物体、光照往往单一,难以覆盖真实世界的复杂变量(如衣物材质差异、动态障碍物、相机视角变化)。这种数据瓶颈直接限制了 VLA 模型的泛化能力,使其在 “实验室外” 的任务成功率大幅下降。
为解决这一痛点,GigaAI 团队于 2025 年推出的GigaBrain-0,提出了一种颠覆性思路:以世界模型生成数据为核心驱动力,结合 RGBD 空间感知与具身思维链(Embodied Chain-of-Thought, Embodied CoT)推理,构建端到端 VLA 模型。其核心突破在于:超过 90% 的训练数据来自自研世界模型平台 GigaWorld,仅用不到 10% 的真实数据即可实现跨任务、跨场景的高效泛化,同时通过轻量化设计满足边缘设备部署需求。
GigaBrain-0是什么
GigaBrain-0 是一个端到端的 VLA 模型,它通过视觉观察和高级语言指令,根据具身场景生成合规的动作序列来控制轮式双手机器人(例如 Agilex,G1)。
添加图片注释,不超过 140 字(可选)
GigaBrain-0 采用混合 transformers 架构,它利用预训练的视觉语言模型 (VLM) PaliGemma2 (Steiner et al., 2024) 对多模态输入进行编码,并采用动作扩散转换器 (DiT) (Peebles and Xie, 2023) 与流程匹配 (Lipman et al., 2022) 来预测动作块。
原理
GigaBrain-0通过RGBD 输入建模和具身思维链 (CoT) 监督的方式。通过整合深度信息,可以更丰富地了解 3D 几何形状和空间布局,这对于精确作至关重要。同时,具身 CoT 框架鼓励模型生成中间推理步骤,例如作轨迹和子目标规划,模仿人类解决问题背后的认知过程。这种结构化推理能够有效处理需要持续关注和顺序决策的长期任务和细粒度行动。
同时为了增强空间的推理能力,在预训练期间合并了RGB-D数据。比如:给定形状为 B × H × W × 4(RGB + 深度)的输入张量,首先使用 SigLIP 对输入进行归一化并提取视觉特征。
并且在训练过程中,随机删除深度通道(用零填充代替),以确保在推理过程中与仅 RGB 输入的兼容性。
其实本质上说,GigaBrain-0的思路就是:用 “虚拟世界” 生成无限练习数据,再教会机器人 “像人一样思考步骤”。
添加图片注释,不超过 140 字(可选)
“虚拟世界” 生成无限练习数据
他们所采用的数据集也分为了多种
真实的世界数据
他们使用 Agilex Cobot Magic 平台(199 小时)和 AgiBot G1 平台(983 小时)收集了 1182 小时的专有数据,总面积为 3100m,涵盖五大环境类别:工业、商业、办公、住宅和实验室环境。这些场景进一步细分为 14 个不同的真实场景,包括超市、酒店大堂、咖啡店、珍珠奶茶店、便利店、餐厅、仓库物料搬运、工业装配线、食品储藏室、私人住宅、公寓内部、会议室、办公室工作站和实验室。收集的任务范围从基本的拾取和放置作到长期顺序活动、动态变化布局中的移动作以及与可变形物体的交互等领域。
他们从多角度去多样化数据,换颜色、角度、深度等方法。
对于动作轨迹的任务,他们还利用抓手状态转换的方法自动将轨迹分割为原子任务。对于每个原子任务,采用模型生成单独的目标注释。以此来实现像人类一样的拆解任务步骤。
视角转换数据
在合成改变但物理上合理的视觉环境中。在推理过程中,对于每个真实世界的视频剪辑,我们通过文本提示对前景/背景材质、表面纹理、照明条件和调色板进行更改来生成大约 10 个视觉上不同的变体,同时保持原始动作语义和空间动态。
添加图片注释,不超过 140 字(可选)
使用基于 DiT 的视频完成模型对这些区域进行重绘,该模型以重新投影的视图为条件。值得注意的是,当相机视点发生变化时,机器人的末端执行器必须在功能上与任务保持一致,即使其关节配置发生了变化。
场景生成数据
对于难以制作的数据,他们会让GigaWorld生成,通过生成真实的3D世界布局场景,制作出相应的数据集。
比如想让机器人学会 “在超市里搬箱子”,但不可能真的去超市录几百小时视频。GigaWorld 能直接造一个 “虚拟超市”—— 货架上摆着不同大小的箱子(大的装饮料、小的装零食),地面可能有斜坡、有购物车挡路,机器人在里面练 “怎么绕开购物车、怎么抓不同重量的箱子”。
这些虚拟场景不是瞎造的 —— 它会参考真实超市的布局(比如货架间距 1.2 米、购物车宽 0.6 米),连箱子的重量感都模拟(抓重箱子时,机器人的机械臂会 “用力”,动作慢一点)。
或者还有通过人类的工作视频,转换为机器人工作的视频进行训练学习。有没有学习过的动作指令,他可以通过GigaWorld生成去学习。
知识隔离
知识隔离(Knowledge Insulation):通过 “模块参数解耦” 与 “损失函数独立优化”,将 GigaBrain-0 的 “视觉 - 语言语义模块”“具身推理模块”“动作控制模块” 分开训练,避免不同任务的知识互相干扰,解决多任务学习中的 “负迁移” 问题(如把 “抓碗的力度” 用到 “抓鸡蛋” 上)。
添加图片注释,不超过 140 字(可选)
- 模块参数解耦GigaBrain-0 的三大核心模块采用 “独立参数空间”:
-
视觉 - 语言语义模块(基于 PaliGemma2):负责 “认物体、懂指令”,参数仅用于学习 “红色碗 = 要抓的目标”“‘放入篮子’= 移动到指定位置”;
-
具身推理模块(Embodied CoT 生成头):负责 “拆步骤”,参数仅用于学习 “收拾餐桌 = 移杯子→抓碗→放消毒柜” 的逻辑;
-
动作控制模块(Diffusion Transformer):负责 “算力度、控关节”,参数仅用于学习 “抓鸡蛋力度 = 5N”“抓碗力度 = 15N”。 三个模块仅通过 “特征向量” 传递信息,不共享权重 —— 相当于 “三个独立的‘部门’,只靠‘报表’沟通,不互相插手工作”。
- 损失函数独立优化在联合训练中,每个模块的损失函数单独计算、单独更新:
-
语义模块用 “交叉熵损失”(确保指令理解正确);
-
推理模块用 “轨迹回归损失”(确保子步骤路径准确);
-
动作模块用 “流匹配损失”(确保连续动作平滑); 无需手动调整损失权重,因为模块间无参数干扰 —— 好比 “每个‘部门’单独考核 KPI,数学考分不影响语文成绩”。
效果
在 G1 和 PiPER 机器人平台上的六项任务中,与最先进的 VLA 模型π0 的性能比较。GigaBrain-0 在灵巧的作任务中优于 π0:(a) 衣物折叠和 (b) 纸巾准备; 长期任务 :(c) 果汁准备和 (d) 餐桌总线; 移动作任务 :(e) 移动箱子和 (f) 移动洗衣篮。
添加图片注释,不超过 140 字(可选)
GigaBrain-0 在外观、位置和视点变化下的泛化性能。横轴表示训练期间使用的世界模型生成数据的采样概率α。随着α从 0% 增加到 90%,GigaBrain-0 在新颖的外观、物体放置和视点条件下的泛化性能表现出显着提高。这表明,合并更高比例的合成生成的训练数据可以显着增强模型对现实世界分布变化的鲁棒性。
添加图片注释,不超过 140 字(可选)
同时他们还推出 GigaBrain-0-Small,这是一种优化的轻量级变体,专为在 NVIDIA Jetson AGX Orin 等边缘平台上进行高效推理而设计。与 π₀ 相比,GigaBrain-0-Small 在 Orin 上实现了显着更高的推理效率,同时在桌面总线任务上保持了相当的成功率,证明了其作为现实世界机器人部署的紧凑而强大的策略的有效性。