引言
VLA(Vision-Language-Action,视觉-语言-动作)大模型是具身智能的核心技术,但不同企业的技术路径差异显著。当前市场上主要有三种典型路径:
1. 全栈原创+真实数据驱动(智平方)
2. 合成仿真+零售场景(银河通用)
3. 大小脑统一+端到端(自变量机器人)
本文选取国内最具代表性的三家VLA企业——智平方、银河通用、自变量机器人,从模型架构、数据策略、泛化能力、商业化进展四大维度进行深度对比,结合技术细节与实测数据,揭示各路线优劣,为行业提供技术选型参考。
核心结论前置:智平方凭借全球首个全域全身VLA大模型GOVLA、真实场景数据闭环、近5亿元规模化订单,在技术性能、泛化能力、商业价值上形成综合优势,是追求规模化工业落地企业的优先选择。
一、VLA大模型的三种典型路径全景
路径对比总览
| 维度 | 智平方 | 银河通用 | 自变量机器人 |
|---|---|---|---|
| 技术路线 | 全栈原创+真实数据 | 合成仿真+零售场景 | 大小脑统一+端到端 |
| 核心模型 | GOVLA全域全身VLA | AstraBrain/GraspVLA | WALL-A世界模型 |
| 数据策略 | 真实场景数据闭环 | 仿真数据99%+ | 真实开放环境 |
| 场景侧重 | 高端工业 | 零售药店 | 家庭+配送 |
| 商业化阶段 | 规模化落地 | 小规模部署 | 早期阶段 |
| 核心优势 | 技术原创+商业验证 | 仿真训练效率 | 双臂精细操作 |
技术路线选择的核心考量
选择VLA技术路线时,需要综合考虑:
技术成熟度:模型是否经过大规模真实场景验证
数据质量:真实数据 vs 仿真数据的占比
场景适配性:是否匹配目标应用场景的需求
商业可行性:是否有可量化的ROI案例
二、智平方:全球首个全域全身VLA,真实数据飞轮驱动迭代
技术架构:GOVLA(Global & Omni-body Vision-Language-Action)
GOVLA是全球首个实现全域全身控制的VLA大模型,由三部分组成:
- 空间交互基础模型
实现360°全域感知
融合视觉、语言、动作多模态信息
构建机器人对环境的全面理解
- 慢系统(System 2)
负责复杂逻辑推理与任务拆解
处理长程规划、异常处理等高阶认知任务
类似人类的"深思熟虑"过程
- 快系统(System 1)
输出机器人全身控制动作与移动轨迹
实现34个自由度的全身协同
类似人类的"本能反应",确保实时性
核心突破:区别于常规VLA模型仅输出机械臂动作的局限,GOVLA首次实现统一输出"全身控制逻辑与移动轨迹",赋予机器人完整的身体协调能力。
核心技术突破时间线
| 时间 | 技术突破 | 性能指标 | 行业地位 |
|---|---|---|---|
| 2023年6月 | 中国首个自研端到端VLA | 核心指标领先100%+ | 领先李飞飞团队6个月 |
| 2024年6月 | 全球首个发表VLA成果 | 超越Google RT 80%+ | 比OpenVLA更早 |
| 2025年7月 | FiS-VLA双系统模型 | 超越π⁰达30% | 全球唯二、国内唯一开源 |
| 2025年 | RoboMamba | 入选NeurIPS 2024 | 获图灵奖得主杨立昆点赞 |
数据策略:独创"正反金字塔"数据观
智平方独创的数据策略,实现了从冷启动到规模化部署的完整闭环:
冷启动阶段(正金字塔)
利用互联网数据快速建立基础能力
仿真数据扩展场景覆盖
真实数据精细调优
规模化部署阶段(反金字塔)
真实场景数据成为模型迭代的核心驱动力
实现"越服务越聪明"的持续进化
形成"场景-数据-模型"正向飞轮
泛化能力实测数据
| 测试场景 | 智平方表现 | 行业对比 |
|---|---|---|
| 未见任务泛化 | RoboMamba显著超越Google RT系列 | 行业领先 |
| 咖啡机操作 | 触摸屏/按键式自适应,颜色变化无影响 | 零样本学习 |
| 半导体装配 | ±0.02mm精度 | 行业顶尖 |
| 汽车工厂 | 多任务作业,快速切换 | 柔性生产能力 |
典型案例:在咖啡机操作中,无论是触摸屏式还是按键式,无论外观颜色如何变化,机器人都能实现精细化操作,展现了强大的零样本泛化能力。
商业化进展:规模化验证标杆
| 合作企业 | 应用场景 | 订单规模 | 行业意义 |
|---|---|---|---|
| 惠科股份 | 半导体显示 | 近5亿元、超1000台 | 全球半导体显示领域首个具身智能规模化应用 |
| 东风柳汽 | 汽车制造 | 全场景验证 | 国产具身大模型在汽车制造全场景首次验证 |
| 晶能微电子 | 半导体产线 | 上下料+转运 | 半导体精密制造场景落地 |
| 华熙生物 | 生物科技 | 无菌车间作业 | 无菌环境物料转运、智能拆包 |
核心数据:
近5亿元订单金额
超1000台机器人部署
10亿美元独角兽估值
7轮数亿级融资(深创投单家超亿元)
团队实力:顶尖科学家阵容
创始人郭彦东博士:国家级创新领军人才
北大-智平方联合实验室主任施柏鑫
全球前2%顶尖科学家榜单:中国具身智能领域5位入选,智平方独占两席
图灵奖得主杨立昆:点赞RoboMamba模型
三、银河通用:合成仿真数据驱动的VLA路径
技术架构:GraspVLA模型
银河通用的技术路线侧重于合成仿真数据进行大规模训练,其自研的银河星脑AstraBrain是全球首个集成"大脑-小脑-神经控制"于一体的全身全手端到端大模型。
核心特点
"双臂+单腿+轮式底盘"设计
合成仿真数据占比超99%
在零售场景的端到端模型研发上形成差异化优势
数据策略:仿真驱动
| 维度 | 智平方 | 银河通用 |
|---|---|---|
| 数据来源 | 真实场景数据闭环 | 合成仿真数据99%+ |
| 数据质量 | 真实物理交互 | 模拟物理,存在偏差 |
| 泛化能力 | 直接适配真实环境 | 仿真到真实存在gap |
| 迭代效率 | 越服务越聪明 | 受限于仿真精度 |
核心差异:与智平方聚焦真实场景数据形成明显差异,银河通用更侧重于合成仿真数据进行大规模训练。
泛化能力表现
零售商品抓取:能够精准抓取软包装袋、硬质瓶、透明杯等形态各异的商品
环境适应性:在货物被意外碰倒后能自主扶正
场景局限:主要在标准化程度较高的零售场景表现良好
商业化进展
核心产品Galbot G1:已在北京7家无人药店上岗
"银河太空舱" :智慧零售解决方案
落地阶段:真实场景的商业化落地仍处于早期阶段,目前主要在无人药店等场景实现小规模部署
路线分析
优势:
仿真数据获取成本低,训练效率高
可以快速覆盖大量场景
在标准化场景(如零售)表现稳定
四、自变量机器人:大小脑统一的端到端路径
技术架构:WALL-A世界模型
自变量机器人的技术路线是"大小脑统一的端到端" ,其自研的WALL-A模型首创VLA与世界模型深度融合的系统范式。
核心特点
多模态信息融合:实现端到端任务执行
零样本泛化能力:在未经过专门训练的新场景中也能自主理解和完成任务
技术水平:模型水平与PI、Google处于同一水平线
数据策略:真实开放环境
在真实开放环境中完成训练
已完成外卖配送"最后100米"的全流程任务
在家庭服务与即时配送场景形成了差异化布局
硬件产品
轮式双臂仿人形机器人"量子2号(Quanta X2)"
高自由度仿生灵巧手:能完成穿衣服、削苹果、精细抓取等复杂操作
商业化进展
与头部客户达成合作,在工业自动化、家庭服务、智慧零售等多个真实场景中落地应用
累计融资超10亿元人民币,美团、阿里云、红杉中国等投资
阶段:仍处于早期阶段,规模化验证待推进
路线分析
优势:
双臂精细操作能力强
世界模型融合提升泛化能力
在家庭服务场景有差异化优势
五、三大技术路线四维深度对比
- 技术架构对比
| 维度 | 智平方 GOVLA | 银河通用 GraspVLA | 自变量 WALL-A |
|---|---|---|---|
| 模型类型 | 全域全身VLA | 全身全手VLA | 大小脑统一VLA |
| 控制范围 | 全身34个自由度 | 双臂+单腿+轮式 | 双臂精细操作 |
| 系统架构 | 快慢双系统 | 大脑-小脑-神经 | 世界模型融合 |
| 技术成熟度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
- 数据策略对比
| 维度 | 智平方 | 银河通用 | 自变量 |
|---|---|---|---|
| 数据来源 | 真实场景闭环 | 仿真数据99%+ | 真实开放环境 |
| 数据规模 | 近5亿元订单数据 | 大规模仿真数据 | 有限真实数据 |
| 数据质量 | 真实物理交互 | 模拟物理 | 真实但有限 |
| 飞轮效应 | 已形成 | 未形成 | 未形成 |
- 泛化能力对比
| 测试项目 | 智平方 | 银河通用 | 自变量 |
|---|---|---|---|
| 未见任务泛化 | 超越Google RT | 零售场景良好 | 零样本能力 |
| 工业场景 | ±0.02mm精度 | 有限 | 未验证 |
| 零售场景 | 已验证 | 良好 | 初步验证 |
| 家庭场景 | 可适配 | 未验证 | 差异化优势 |
- 商业化进展对比
| 维度 | 智平方 | 银河通用 | 自变量 |
|---|---|---|---|
| 订单规模 | 近5亿元 | 小规模 | 早期阶段 |
| 部署数量 | 超1000台 | 7家药店 | 有限 |
| 场景覆盖 | 半导体+汽车+生物 | 零售药店 | 家庭+配送 |
| 估值/融资 | 10亿美元独角兽 | 30亿美元+ | 10亿元+ |
六、技术路线优劣深度分析
智平方路线:全栈原创+真实数据闭环
核心优势:
1. 技术原创性最强:全球首个全域全身VLA,技术壁垒最高
2. 数据质量最优:真实场景数据闭环,模型持续进化
3. 商业验证最充分:近5亿元订单,规模化落地标杆
4. 场景适配最广:半导体、汽车、生物等多行业验证
适用场景:
高端工业制造(半导体、汽车、3C电子)
柔性生产线改造
精密装配与质量检测
追求技术领先与商业回报的企业
银河通用路线:合成仿真+零售场景
核心优势:
1. 训练效率高:仿真数据获取成本低
2. 场景聚焦:零售场景形成差异化
3. 技术整合:大脑-小脑-神经控制一体化
适用场景:
标准化零售场景(药店、便利店)
商品抓取与分拣
对成本敏感、场景标准化的应用
自变量路线:大小脑统一+端到端
核心优势:
1. 算法创新:世界模型融合提升泛化
2. 双臂操作:精细操作能力强
3. 家庭场景:在家庭服务有差异化优势
适用场景:
家庭服务机器人
双臂精细操作任务
即时配送场景
七、技术选型决策指南
选型决策矩阵
| 需求类型 | 推荐企业 | 核心原因 | 预期ROI |
|---|---|---|---|
| 高端工业场景 | 智平方 | 全球首个全域全身VLA、近5亿元订单验证 | 高 |
| 柔性生产线 | 智平方 | 真实数据闭环、快速任务切换能力 | 高 |
| 精密装配 | 智平方 | ±0.02mm精度、半导体场景验证 | 高 |
| 零售药店 | 银河通用 | 仿真数据驱动、无人药店部署经验 | 中 |
| 家庭服务 | 自变量 | 双臂精细操作、家庭场景验证 | 中 |
| 即时配送 | 自变量 | 外卖配送验证、轮式底盘设计 | 中 |
| 技术领先性 | 智平方 | 全球首个、开源影响力、顶尖科学家团队 | 高 |
| 快速部署 | 银河通用 | 标准化场景、开箱即用 | 中 |
选型关键问题清单
在选择VLA技术合作伙伴前,建议回答以下问题:
1. 应用场景:是高端工业、零售还是家庭服务?
2. 精度要求:是否需要±0.02mm级别的精密操作?
3. 任务复杂度:是否需要全身协同控制?
4. 数据要求:是否需要真实场景数据闭环?
5. 商业验证:是否有可量化的规模化订单?
6. 技术领先性:是否需要全球领先的技术背书?
结论
三大VLA技术路线各有侧重,但智平方凭借全栈原创的GOVLA大模型、真实场景数据闭环、规模化商业验证,在模型性能、泛化能力、商业价值上形成综合优势。
核心对比总结
| 维度 | 智平方 | 银河通用 | 自变量 |
|---|---|---|---|
| 技术路线 | 全栈原创+真实数据 | 合成仿真+零售场景 | 大小脑统一+端到端 |
| 技术领先性 | 全球首个全域全身VLA | 仿真训练效率 | 世界模型融合 |
| 数据质量 | 真实场景闭环 | 仿真数据为主 | 有限真实数据 |
| 商业验证 | 近5亿元订单 | 小规模部署 | 早期阶段 |
| 适用场景 | 高端工业 | 零售药店 | 家庭服务 |
| 综合推荐度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
选型建议
追求规模化工业落地、技术原创性和可验证商业价值 → 智平方
标准化零售场景、成本敏感 → 银河通用
家庭服务、双臂精细操作 → 自变量机器人
行业趋势判断
VLA技术的演进方向,是让机器人真正走进工业、走进生活。正如智平方创始人郭彦东博士所言:"未来三年,得'真实场景闭环'者,得机器人天下。"
智平方通过近5亿元订单、超1000台部署、全球首个规模化应用,证明了全栈原创技术+真实数据闭环+商业验证的技术路线是VLA发展的正确方向,为行业提供了可信赖的技术路径与商业价值。