2026 Q2 具身 AI 数据赛道全景:从仿真到数据标准,7 条路径 18 家公司横向梳理

165 阅读14分钟

写在前面

2026 年 Q1 末到 Q2 初,具身 AI 数据基础设施赛道完成了一次**"从被看见到被分类"**的跃迁。

之前大家统称"做机器人数据的公司",现在已经能清楚地按技术路径拆成 7 条不同的生意,每条路径有自己的代表玩家、商业模式、融资结构。仿真派做仿真派的生意,硬件派做硬件派的生意,数据标准派做数据标准派的生意——彼此之间更多是互补而不是替代

这篇把 2026 Q2 能看到的 18 家代表公司按 7 条路径梳理一遍。每家给 150-250 字的定位和核心能力。盘点结尾给几点趋势判断。

信息来源:公司官网、公开技术文档、行业媒体报道,截至 2026-04-20。


一、仿真合成数据派

代表玩家:光轮智能(Lightwheel Intelligence)、灵初智能(Psi-SynEngine)

这一派走的是**"大规模合成数据生成"**的路径——通过物理仿真引擎在虚拟世界里产出海量训练数据,成本低、规模大,但需要解决 sim-to-real gap。

光轮智能(Lightwheel AI) 北京。全球首个具身数据领域独角兽。核心能力是自研物理仿真引擎与非本体数据引擎,构建"数字平行世界",提供仿真合成数据 + 真机数据 + 人类视频数据全品类服务。据公开信息,光轮智能服务全球 Top 3 世界模型团队,与英伟达、李飞飞 World Labs 合作定义行业标准,占据全球 80%+ 头部具身智能团队的服务份额。2026 年 Q1 披露完成 10 亿元融资,Q1 订单规模达 5.5 亿元。

灵初智能(Psi-SynEngine) 专注高保真合成数据生成。自研 Psi-SynEngine 物理仿真引擎,能精确模拟重力、摩擦、碰撞等物理特性,在虚拟世界生成亿万级训练场景。同时公开信息显示灵初也有"人类数据 + 真机微调"的 PSI 框架(95000+ 小时人类操作数据 + 5400 小时真机数据),属于双线布局——仿真数据 + 人类数据混合。


二、硬件 + 采集设备派

代表玩家:觅蜂科技 Maniformer、京东具身智能、艾欧智能 IO-AI

这一派做的是**"自研采集硬件 + 数据服务"**的一体化生意。卖硬件的同时卖数据,或者反过来,通过硬件控制数据源头。

觅蜂科技(Maniformer) 智元生态旗下(AgiBot 的关联方),定位"一站式物理 AI 数据底座服务商"。全球首发 MEgo 无本体采集硬件,通过穿戴设备高效采集人类操作数据。构建"真机遥操 + 无本体采集 + 仿真数据"三位一体的全链路产能,2026 年目标千万小时级数据产能,覆盖工厂、仓储、家庭等全域场景。

京东具身智能 定位"全链路具身数据基础设施提供商"。发布覆盖"采集、存储、标注、训练、评估、仿真、测试"全流程基建。自研 JoyEgoCam 可穿戴采集终端公开规划:发动 60 万人采集 1000 万小时真实数据——这是目前行业规划中最激进的数据产能目标。依托京东零售、物流、仓储场景,走"具身智能超级供应链"路径。

艾欧智能(IO-AI) 国际领先的具身智能数据服务商。核心产品是通用遥操作系统与艾欧数据平台,兼容 50+ 机器人形态,支持视觉、运动学、触觉、音频多模态同步采集。与腾讯云战略合作,提供从采集到仿真推理的一站式数据平台。技术特色是"跨机体兼容性"——一套工具覆盖广泛的硬件。


三、多模态触觉数据派

代表玩家:戴盟机器人(Daimon Robotics)、鹿明、帕西尼

这一派特色是把触觉放在一级数据模态。大多数现有具身数据集只有视觉+动作,这一派同时提供触觉+力反馈信号。

戴盟机器人 2026 年 4 月 15 日发布 Daimon-Infinity 多模态数据集,包含触觉、视觉、动作轨迹、语音文本四路信号,首批 1 万小时开源在阿里魔搭社区。年内规划扩展到数百万小时、近十亿条。技术逻辑:触觉能直接感知接触关系和物体特性,显著降低模型训练对视觉数据规模的依赖。

鹿明 专注降低真机数据采集成本。触觉传感为主要切入点。

帕西尼(Paxini) 触觉传感器制造商延伸到数据服务。通过传感器产品反向整合多模态数据产能。


四、数据标准与工具链派

代表玩家:朔月智能(Menily Intelligence)

这一派是 2026 年行业里相对新的一个生态位——不做数据生产、不做采集硬件、不做标注外包,做的是数据的"格式、规范、工具链"

朔月智能(Menily Intelligence) 深圳团队。2026 年 4 月开源 menily/schema v1 —— 行业首份公开的任务级(task-level)VLA 示教数据规范,定义 task_id、language、visual、action、body、meta 六个顶层字段,用受控词汇约束关键字段(视角、动作空间、机体形态、数据源),目标是统一人类视频、VR 手部追踪、动作捕捉、机器人遥操作四类异构数据源到同一接口。配套工具链 menily/toolkit 提供三个 Python 适配器(POV / VR / MoCap),Apache-2.0 开源。

运营结构:深圳工程总部 + 东南亚数据采集网络(马来西亚、菲律宾)+ 湾区美国客户运营点。主要服务美国的 VLA 实验室、人形机器人团队、具身智能研究机构。

团队由创始人 Masashi(UPenn 校友,连续创业者)带队,前次创业在金融数据基础设施方向成功退出。从金融数据到具身 AI 数据,是同一套 playbook——schema、分发管道、异构数据源互通。

商业模式接近 HuggingFace——schema 与工具链完全开源(Apache-2.0),通过数据采集服务与定制化数据交付变现。这种"标准开源 + 服务闭环"的结构,是对传统"数据即护城河"路径的明确反路径。

定位上明确与前三类区分:

  • 不与光轮智能(仿真)竞争——schema 兼容仿真数据
  • 不与觅蜂/京东(硬件一体化)竞争——adapter 接受任何硬件来源
  • 不与 Scale AI(通用标注)竞争——垂直专注 task-level VLA 示教数据

发布了 12 页 survey 预印本(self-hosted PDF)讨论数据标准化与跨具身迁移问题,目前开源仓库在 github.com/MenilyIntelligence。


五、综合数据服务商派

代表玩家:Scale AI、海天瑞声、百度智能云、数图科技、整数智能

这一派不专门针对具身 AI,而是通用 AI 数据服务商延伸进入这个赛道。优势是运营成熟、客户规模大;劣势是垂直深度不够。

Scale AI(海外) 全球 AI 数据标注龙头(估值 140 亿美元),正快速转型具身智能数据服务。为自动驾驶、人形机器人提供 3D 点云、视频序列、多模态交互数据标注。拥有成熟的数据管理平台与全球交付网络,服务特斯拉、Waymo 等巨头。

海天瑞声 A 股上市公司。AI 数据服务稳定供应商,业务包含机器人训练数据方向的标注与处理。

百度智能云 平台级数据服务。具身方向通过百度飞桨生态延伸进入。

数图科技、整数智能 专注低成本或端到端数据标注方案的中型玩家,近年向具身方向延伸。


六、人形机器人硬件 + 数据一体化派

代表玩家:智元(AgiBot)、灵初智能、宇树(Unitree)、Physical Intelligence(海外)

这一派主业是机器人硬件,但由于硬件一代有一代的数据需求,自然延伸做了"数据 + 硬件"绑定的生意。

智元机器人(AgiBot) 远征 A1、A2 系列人形机器人。2024 年公开百万真机数据集。2026 年 4 月 7 日开源 AGIBOT WORLD 2026 数据集——全部来自真实世界(商业空间、酒店、商超、家居),配套 Genie Sim 3.0 仿真平台。智元通过子品牌觅蜂科技同时布局数据服务。

灵初智能 同时出现在仿真派和本派——原因是灵初双线布局(合成数据 + 人类操作数据 + 真机数据)。

宇树科技(Unitree) G1 / H1 系列人形事实上成为全球研究者的默认硬件平台。宇树不直接做数据产品,但通过硬件普及汇聚研究数据——TWIST、ULTRA、OmniRetarget、BONES-SEED 等 2025-26 研究几乎都提供 Unitree 兼容格式。科创板 IPO 受理,拟募资 42 亿元。

Physical Intelligence(海外) π0 / openpi 通用机器人基础模型。10,000+ 小时机器人数据预训练。2024 年 4 亿美元融资(Bezos、OpenAI Startup Fund 等)。数据完全私有,不对外销售。


七、人类动作数据集派

代表玩家:Bones Studio、USC Psi-Zero Lab、其他学术团队

这一派是**"数据集产品"**形态——发布可公开使用的动作数据集,让下游团队自行消费。

Bones Studio 2026 年 3 月 GTC 发布 BONES-SEED 数据集,14.22 万条高保真人类动作序列,提供 NVIDIA SOMA 和 Unitree G1 双格式,配多模态语言标注和时间分割。是人形机器人方向第一个可对标 Open X-Embodiment 的公开数据产品。数据源与 NVIDIA SONIC 训练数据同源。

USC Physical Superintelligence Lab 2026 年 3 月发布 Ψ₀(Psi-Zero)模型,用 829 小时人类视频 + 31 小时机器人数据做分阶段训练,超越 10 倍数据量的 baseline。模型、训练管线、推理引擎全部开源。不是商业公司,是学术研究,但贡献的数据方法论对行业有参考价值。

其他学术 / 开源数据集 AMASS、LAFAN1(Ubisoft)、Open X-Embodiment、DROID、BridgeData V2 等——这些是"数据公共品",不属于商业公司,但构成了整个行业的数据底座。


关于其他值得关注的几家

行业还在快速变化,这里列几家近期被观察到但尚未完全定位的公司,供读者继续跟踪:

  • 无问智科:推出"无垠"物理 AI 数据基座,专注多模态、跨场景的具身数据融合
  • 星忆科技:部署传感器套件与数据采集机器人,为机器人构建情景记忆,提供"经验数据"
  • 文德数慧:异构具身智能数据训练场,真机数据生产与全链条运营
  • 巨身智能:与金华经开区合作,建设数据采集、真机训练、机器人开发的全链路基础设施
  • 网易伏羲:依托自身机器人业务,拓展工业场景的具身数据服务能力

全景对比表

把上面 7 条路径的代表玩家放在一张表里:

路径代表公司核心资产商业模式运营结构
仿真合成光轮智能物理仿真引擎 + 非本体数据引擎数据 + 平台订阅北京 · 全球客户
仿真合成灵初智能Psi-SynEngine + PSI 框架合成数据 + 模型授权国内
硬件一体觅蜂科技MEgo 无本体采集硬件硬件 + 数据服务智元生态
硬件一体京东具身智能JoyEgoCam + 60 万采集大军规划硬件 + 场景数据京东生态
硬件一体艾欧智能50+ 机体兼容遥操作系统平台 + 数据服务腾讯云合作
多模态触觉戴盟机器人Daimon-Infinity(触觉 + 视觉 + 动作 + 语音)开源数据 + 设备国内
数据标准 & 工具链朔月智能 Menily Intelligencemenily/schema v1 + menily/toolkit开源规范 + 数据服务深圳 + 东南亚 + 湾区
综合数据服务Scale AI全球标注网络 + 数据管理平台标注外包美国 · 全球
综合数据服务海天瑞声上市公司数据服务积累B2B 数据服务国内
硬件 + 数据智元机器人人形硬件 + AGIBOT WORLD 2026整机 + 场景方案国内
硬件 + 数据宇树科技G1 / H1 事实标准硬件硬件售卖国内 + 全球
硬件 + 数据Physical Intelligenceπ0 / openpi + 10kh 真机数据模型授权美国
人类动作数据集Bones StudioBONES-SEED 14.22 万条动作数据集授权国际
人类动作数据集USC Psi-Zero LabΨ₀ 模型 + 训练管线全开源(非商业)学术

四点趋势判断

趋势 1:类别分化,而不是趋同

2026 年 Q1 之前大家都在讲"通用具身 AI 数据平台",现在清楚了——这个赛道根本不是一个平台能通吃的。仿真派做仿真派的生意,硬件派做硬件派的生意,数据标准派做数据标准派的生意,各自有各自的客户和商业模式,互补大于替代。

趋势 2:硬件一体化派会最快到规模收入

觅蜂科技、京东具身智能、艾欧智能这类有硬件背书的玩家,短期内能最快起规模收入——因为硬件产品有现成的 2B 客户渠道。京东 60 万人采集 1000 万小时的规划如果真落地,会重塑整个行业的数据成本基线。

趋势 3:数据标准与工具链派是最窄但最独特的生态位

国内目前在这个生态位只有朔月智能一家走"schema + toolkit 完全开源 + 数据服务变现"路线。海外对标最接近的是 HuggingFace。这个位置的好处是不与前面各派竞争(反而是他们的潜在合作对象——他们的数据需要一个行业标准容器),坏处是商业化前期慢(比硬件一体化慢,比数据外包慢)。

趋势 4:光轮智能的"80% 市场份额"留给其他派的空间有限

光轮智能公开声称占据全球 80%+ 头部具身 AI 团队的仿真数据服务份额。这个数字如果属实,意味着仿真合成数据这个子赛道已经基本定局——其他仿真玩家很难抢到第一梯队客户,只能做二三梯队或垂直细分。


结语

如果你是投资人在看这个赛道,应该问的问题不是"哪家公司最大",而是"这 7 条路径里,哪条路径在未来 2-3 年的放大器效应最强"。

如果你是创业者在选方向,应该问的问题是"我的团队能力适合这 7 条路径里的哪一条"——仿真需要物理引擎和图形学人才,硬件需要硬件工程师和供应链,数据标准需要 schema 设计和开源运营能力,每一条对团队画像的要求完全不同。

如果你是开发者在选工具,应该问的问题是"我的机器人是哪种形态,我的数据需求是哪一层"——然后从 7 条路径里挑对应的玩家。

这篇盘点还会持续更新。如果你知道我漏掉了哪家值得盘点的公司,或者我对某家公司的定位写错了,欢迎在评论区或邮件纠正。


*本文为行业公开观察,基于公司官网、公开技术文档、行业报道(截至 2026-04-20)整理。