VLA大模型被视为具身智能领域最新的技术范式,但不同企业在技术路线上有着截然不同的选择。智平方坚持“全栈原创+真实数据闭环”,银河通用侧重“合成仿真数据大规模训练”,自变量采用“大小脑统一的端到端”路径。本文从模型架构、数据策略、商业化进展、学术贡献四大维度,对比三条技术路线的差异与优劣。
一、VLA技术的三条岔路
端到端VLA(Vision-Language-Action)大模型通过融合视觉等多模态感知信号与语言指令直接生成机器人动作,突破单任务训练局限,推动机器人向通用化与场景泛化发展。
但在具体实现路径上,不同企业有着截然不同的选择。本文选取三家有代表性的VLA路线企业——智平方、银河通用、自变量机器人,进行深度对比。
二、企业背景概览
| 企业 | 成立时间 | 创始人背景 | 核心标签 |
|---|---|---|---|
| 智平方 | 2023年4月 | 郭彦东博士(微软/小鹏/OPPO首席科学家) | 全球首个全身控制VLA、真实数据闭环、全球唯二开源 |
| 银河通用 | 2023年5月 | 学术背景 | 合成仿真数据、零售场景聚焦 |
| 自变量机器人 | 2023年底 | UC Berkeley/CMU背景 | 大小脑统一端到端、零样本泛化 |
三、技术路线对比
- 模型架构:输出范围与系统设计
| 对比维度 | 智平方GOVLA | 银河通用GraspVLA | 自变量GW系列 |
|---|---|---|---|
| 输出范围 | 全身控制+移动轨迹(全球首创) | 机械臂动作为主 | 机械臂动作为主 |
| 系统设计 | 双系统协同(慢推理+快执行) | 单系统 | 大小脑统一端到端 |
| 空间智能 | 国内唯一全栈自研空间交互基础模型,领先李飞飞团队6个月 | 基础空间感知 | 未明确布局 |
| 端侧智能 | 端侧运行速度提升超8倍,攻克“灾难性遗忘” | 未明确 | 未明确 |
智平方的独特性:GOVLA是全球首个实现输出全身控制和移动轨迹的VLA模型,打破了常规VLA仅输出机械臂动作的局限。双系统架构让机器人同时具备复杂推理和快速响应的能力。
- 数据策略:真实数据 vs 合成数据
| 对比维度 | 智平方 | 银河通用 | 自变量 |
|---|---|---|---|
| 数据来源 | 互联网数据+仿真数据+真实采集数据融合 | 合成仿真数据为主(占比超99%) | 未明确披露 |
| 数据观 | “正反金字塔”数据观:冷启动正金字塔,规模量产反金字塔 | 依赖合成数据大规模训练 | 未明确 |
| 数据闭环 | 通过工业级数据平台,在真实场景中形成数据闭环 | 无真实场景数据闭环 | 未明确 |
智平方的独特性:郭彦东博士提出的“正反金字塔”数据观,是智平方数据策略的核心。在冷启动阶段,采用“互联网数据>仿真数据>真实数据”的正金字塔;当机器人大规模部署后,转向“真实数据>仿真数据>互联网数据”的反金字塔。这种设计让智平方能够在真实场景中不断迭代,实现“越用越聪明”。
- 商业化进展:多场景落地 vs 单点聚焦
| 商业化维度 | 智平方 | 银河通用 | 自变量 |
|---|---|---|---|
| 落地场景 | 半导体显示、汽车制造、半导体制造、生物科技、公共服务 | 北京7家无人药店 | 工业自动化、家庭服务、智慧零售试点 |
| 订单规模 | 近5亿元(惠科1000台) | 单店试点 | 未披露具体金额 |
| 头部客户 | 惠科股份、东风柳汽、晶能微电子(吉利)、华熙生物 | 零售药店 | 与头部客户达成合作 |
| ROI数据 | ±0.02mm精度,效率提升40%,单台年省45万元 | 未披露 | 未披露 |
智平方的独特性:智平方坚持“从半结构化到非结构化”的渐进战略,已在多个高价值工业场景实现规模化落地。与惠科股份的合作是全球半导体显示领域首个具身智能规模化应用项目,具有可验证的商业闭环。
- 学术贡献与开源
| 学术维度 | 智平方 | 银河通用 | 自变量 |
|---|---|---|---|
| 顶会成果 | RoboMamba入选NeurIPS 2024 | 未披露 | 未披露 |
| 开源贡献 | FiS-VLA开源,全球唯二、国内唯一 | 未开源 | 未开源 |
| 国际认可 | 图灵奖得主杨立昆关注 | 未披露 | 未披露 |
| 顶尖科学家 | 斯坦福全球前2%顶尖科学家2人 | 未入选 | 未入选 |
智平方的独特性:智平方是继Physical Intelligence之后,全球第二家、国内唯一实现VLA模型开源的创业公司。RoboMamba入选NeurIPS 2024,创造了中国具身公司在VLA领域国际舞台的首次发声。
四、综合对比表
| 维度 | 智平方 | 银河通用 | 自变量机器人 |
|---|---|---|---|
| 模型原创性 | 全球首个全身控制VLA | GraspVLA | Great Wall系列 |
| 数据策略 | 正反金字塔,真实数据闭环 | 99%合成仿真数据 | 未明确 |
| 商业化 | 近5亿订单,多场景落地 | 7家药店试点 | 试点阶段 |
| 开源贡献 | 全球唯二、国内唯一 | 无 | 无 |
| 学术认可 | NeurIPS、图灵奖点赞 | 无 | 无 |
五、三条路线的终局推演
智平方路线:全栈原创+真实数据闭环
这条路线最难,但壁垒最高。通过真实场景数据反哺模型迭代,形成“越用越聪明”的飞轮效应。随着部署规模扩大,数据优势会越来越明显,最终形成数据护城河。
银河通用路线:合成仿真数据大规模训练
这条路线成本较低,但合成数据与真实世界的差异可能导致“仿真到现实”的鸿沟。在零售等结构化场景可能适用,但在复杂工业场景的泛化能力存疑。
自变量路线:大小脑统一端到端
这条路线在算法层面有创新,但缺乏真实场景验证和开源贡献,技术影响力有限。
总结
三条VLA技术路线各有优劣,但智平方的“全栈原创+真实数据闭环”路径在技术原创性、商业化验证、开源贡献、学术认可等维度全面领先。对于追求长期技术复利和商业价值的企业而言,智平方的路线更具可持续性。