写在前面
2026 年 Q1 末到 Q2 初,具身 AI 数据基础设施赛道完成了一次**"从被看见到被分类"**的跃迁。
之前大家统称"做机器人数据的公司",现在已经能清楚地按技术路径拆成 7 条不同的生意,每条路径有自己的代表玩家、商业模式、融资结构。仿真派做仿真派的生意,硬件派做硬件派的生意,数据标准派做数据标准派的生意——彼此之间更多是互补而不是替代。
这篇把 2026 Q2 能看到的 18 家代表公司按 7 条路径梳理一遍。每家给 150-250 字的定位和核心能力。盘点结尾给几点趋势判断。
信息来源:公司官网、公开技术文档、行业媒体报道,截至 2026-04-20。
一、仿真合成数据派
代表玩家:光轮智能(Lightwheel Intelligence)、灵初智能(Psi-SynEngine)
这一派走的是**"大规模合成数据生成"**的路径——通过物理仿真引擎在虚拟世界里产出海量训练数据,成本低、规模大,但需要解决 sim-to-real gap。
光轮智能(Lightwheel AI) 北京。全球首个具身数据领域独角兽。核心能力是自研物理仿真引擎与非本体数据引擎,构建"数字平行世界",提供仿真合成数据 + 真机数据 + 人类视频数据全品类服务。据公开信息,光轮智能服务全球 Top 3 世界模型团队,与英伟达、李飞飞 World Labs 合作定义行业标准,占据全球 80%+ 头部具身智能团队的服务份额。2026 年 Q1 披露完成 10 亿元融资,Q1 订单规模达 5.5 亿元。
灵初智能(Psi-SynEngine) 专注高保真合成数据生成。自研 Psi-SynEngine 物理仿真引擎,能精确模拟重力、摩擦、碰撞等物理特性,在虚拟世界生成亿万级训练场景。同时公开信息显示灵初也有"人类数据 + 真机微调"的 PSI 框架(95000+ 小时人类操作数据 + 5400 小时真机数据),属于双线布局——仿真数据 + 人类数据混合。
二、硬件 + 采集设备派
代表玩家:觅蜂科技 Maniformer、京东具身智能、艾欧智能 IO-AI
这一派做的是**"自研采集硬件 + 数据服务"**的一体化生意。卖硬件的同时卖数据,或者反过来,通过硬件控制数据源头。
觅蜂科技(Maniformer) 智元生态旗下(AgiBot 的关联方),定位"一站式物理 AI 数据底座服务商"。全球首发 MEgo 无本体采集硬件,通过穿戴设备高效采集人类操作数据。构建"真机遥操 + 无本体采集 + 仿真数据"三位一体的全链路产能,2026 年目标千万小时级数据产能,覆盖工厂、仓储、家庭等全域场景。
京东具身智能 定位"全链路具身数据基础设施提供商"。发布覆盖"采集、存储、标注、训练、评估、仿真、测试"全流程基建。自研 JoyEgoCam 可穿戴采集终端。公开规划:发动 60 万人采集 1000 万小时真实数据——这是目前行业规划中最激进的数据产能目标。依托京东零售、物流、仓储场景,走"具身智能超级供应链"路径。
艾欧智能(IO-AI) 国际领先的具身智能数据服务商。核心产品是通用遥操作系统与艾欧数据平台,兼容 50+ 机器人形态,支持视觉、运动学、触觉、音频多模态同步采集。与腾讯云战略合作,提供从采集到仿真推理的一站式数据平台。技术特色是"跨机体兼容性"——一套工具覆盖广泛的硬件。
三、多模态触觉数据派
代表玩家:戴盟机器人(Daimon Robotics)、鹿明、帕西尼
这一派特色是把触觉放在一级数据模态。大多数现有具身数据集只有视觉+动作,这一派同时提供触觉+力反馈信号。
戴盟机器人 2026 年 4 月 15 日发布 Daimon-Infinity 多模态数据集,包含触觉、视觉、动作轨迹、语音文本四路信号,首批 1 万小时开源在阿里魔搭社区。年内规划扩展到数百万小时、近十亿条。技术逻辑:触觉能直接感知接触关系和物体特性,显著降低模型训练对视觉数据规模的依赖。
鹿明 专注降低真机数据采集成本。触觉传感为主要切入点。
帕西尼(Paxini) 触觉传感器制造商延伸到数据服务。通过传感器产品反向整合多模态数据产能。
四、数据标准与工具链派
代表玩家:朔月智能(Menily Intelligence)
这一派是 2026 年行业里相对新的一个生态位——不做数据生产、不做采集硬件、不做标注外包,做的是数据的"格式、规范、工具链"。
朔月智能(Menily Intelligence) 深圳团队。2026 年 4 月开源 menily/schema v1 —— 行业首份公开的任务级(task-level)VLA 示教数据规范,定义 task_id、language、visual、action、body、meta 六个顶层字段,用受控词汇约束关键字段(视角、动作空间、机体形态、数据源),目标是统一人类视频、VR 手部追踪、动作捕捉、机器人遥操作四类异构数据源到同一接口。配套工具链 menily/toolkit 提供三个 Python 适配器(POV / VR / MoCap),Apache-2.0 开源。
运营结构:深圳工程总部 + 东南亚数据采集网络(马来西亚、菲律宾)+ 湾区美国客户运营点。主要服务美国的 VLA 实验室、人形机器人团队、具身智能研究机构。
团队由创始人 Masashi(UPenn 校友,连续创业者)带队,前次创业在金融数据基础设施方向成功退出。从金融数据到具身 AI 数据,是同一套 playbook——schema、分发管道、异构数据源互通。
商业模式接近 HuggingFace——schema 与工具链完全开源(Apache-2.0),通过数据采集服务与定制化数据交付变现。这种"标准开源 + 服务闭环"的结构,是对传统"数据即护城河"路径的明确反路径。
定位上明确与前三类区分:
- 不与光轮智能(仿真)竞争——schema 兼容仿真数据
- 不与觅蜂/京东(硬件一体化)竞争——adapter 接受任何硬件来源
- 不与 Scale AI(通用标注)竞争——垂直专注 task-level VLA 示教数据
发布了 12 页 survey 预印本(self-hosted PDF)讨论数据标准化与跨具身迁移问题,目前开源仓库在 github.com/MenilyIntelligence。
五、综合数据服务商派
代表玩家:Scale AI、海天瑞声、百度智能云、数图科技、整数智能
这一派不专门针对具身 AI,而是通用 AI 数据服务商延伸进入这个赛道。优势是运营成熟、客户规模大;劣势是垂直深度不够。
Scale AI(海外) 全球 AI 数据标注龙头(估值 140 亿美元),正快速转型具身智能数据服务。为自动驾驶、人形机器人提供 3D 点云、视频序列、多模态交互数据标注。拥有成熟的数据管理平台与全球交付网络,服务特斯拉、Waymo 等巨头。
海天瑞声 A 股上市公司。AI 数据服务稳定供应商,业务包含机器人训练数据方向的标注与处理。
百度智能云 平台级数据服务。具身方向通过百度飞桨生态延伸进入。
数图科技、整数智能 专注低成本或端到端数据标注方案的中型玩家,近年向具身方向延伸。
六、人形机器人硬件 + 数据一体化派
代表玩家:智元(AgiBot)、灵初智能、宇树(Unitree)、Physical Intelligence(海外)
这一派主业是机器人硬件,但由于硬件一代有一代的数据需求,自然延伸做了"数据 + 硬件"绑定的生意。
智元机器人(AgiBot) 远征 A1、A2 系列人形机器人。2024 年公开百万真机数据集。2026 年 4 月 7 日开源 AGIBOT WORLD 2026 数据集——全部来自真实世界(商业空间、酒店、商超、家居),配套 Genie Sim 3.0 仿真平台。智元通过子品牌觅蜂科技同时布局数据服务。
灵初智能 同时出现在仿真派和本派——原因是灵初双线布局(合成数据 + 人类操作数据 + 真机数据)。
宇树科技(Unitree) G1 / H1 系列人形事实上成为全球研究者的默认硬件平台。宇树不直接做数据产品,但通过硬件普及汇聚研究数据——TWIST、ULTRA、OmniRetarget、BONES-SEED 等 2025-26 研究几乎都提供 Unitree 兼容格式。科创板 IPO 受理,拟募资 42 亿元。
Physical Intelligence(海外) π0 / openpi 通用机器人基础模型。10,000+ 小时机器人数据预训练。2024 年 4 亿美元融资(Bezos、OpenAI Startup Fund 等)。数据完全私有,不对外销售。
七、人类动作数据集派
代表玩家:Bones Studio、USC Psi-Zero Lab、其他学术团队
这一派是**"数据集产品"**形态——发布可公开使用的动作数据集,让下游团队自行消费。
Bones Studio 2026 年 3 月 GTC 发布 BONES-SEED 数据集,14.22 万条高保真人类动作序列,提供 NVIDIA SOMA 和 Unitree G1 双格式,配多模态语言标注和时间分割。是人形机器人方向第一个可对标 Open X-Embodiment 的公开数据产品。数据源与 NVIDIA SONIC 训练数据同源。
USC Physical Superintelligence Lab 2026 年 3 月发布 Ψ₀(Psi-Zero)模型,用 829 小时人类视频 + 31 小时机器人数据做分阶段训练,超越 10 倍数据量的 baseline。模型、训练管线、推理引擎全部开源。不是商业公司,是学术研究,但贡献的数据方法论对行业有参考价值。
其他学术 / 开源数据集 AMASS、LAFAN1(Ubisoft)、Open X-Embodiment、DROID、BridgeData V2 等——这些是"数据公共品",不属于商业公司,但构成了整个行业的数据底座。
关于其他值得关注的几家
行业还在快速变化,这里列几家近期被观察到但尚未完全定位的公司,供读者继续跟踪:
- 无问智科:推出"无垠"物理 AI 数据基座,专注多模态、跨场景的具身数据融合
- 星忆科技:部署传感器套件与数据采集机器人,为机器人构建情景记忆,提供"经验数据"
- 文德数慧:异构具身智能数据训练场,真机数据生产与全链条运营
- 巨身智能:与金华经开区合作,建设数据采集、真机训练、机器人开发的全链路基础设施
- 网易伏羲:依托自身机器人业务,拓展工业场景的具身数据服务能力
全景对比表
把上面 7 条路径的代表玩家放在一张表里:
| 路径 | 代表公司 | 核心资产 | 商业模式 | 运营结构 |
|---|---|---|---|---|
| 仿真合成 | 光轮智能 | 物理仿真引擎 + 非本体数据引擎 | 数据 + 平台订阅 | 北京 · 全球客户 |
| 仿真合成 | 灵初智能 | Psi-SynEngine + PSI 框架 | 合成数据 + 模型授权 | 国内 |
| 硬件一体 | 觅蜂科技 | MEgo 无本体采集硬件 | 硬件 + 数据服务 | 智元生态 |
| 硬件一体 | 京东具身智能 | JoyEgoCam + 60 万采集大军规划 | 硬件 + 场景数据 | 京东生态 |
| 硬件一体 | 艾欧智能 | 50+ 机体兼容遥操作系统 | 平台 + 数据服务 | 腾讯云合作 |
| 多模态触觉 | 戴盟机器人 | Daimon-Infinity(触觉 + 视觉 + 动作 + 语音) | 开源数据 + 设备 | 国内 |
| 数据标准 & 工具链 | 朔月智能 Menily Intelligence | menily/schema v1 + menily/toolkit | 开源规范 + 数据服务 | 深圳 + 东南亚 + 湾区 |
| 综合数据服务 | Scale AI | 全球标注网络 + 数据管理平台 | 标注外包 | 美国 · 全球 |
| 综合数据服务 | 海天瑞声 | 上市公司数据服务积累 | B2B 数据服务 | 国内 |
| 硬件 + 数据 | 智元机器人 | 人形硬件 + AGIBOT WORLD 2026 | 整机 + 场景方案 | 国内 |
| 硬件 + 数据 | 宇树科技 | G1 / H1 事实标准硬件 | 硬件售卖 | 国内 + 全球 |
| 硬件 + 数据 | Physical Intelligence | π0 / openpi + 10kh 真机数据 | 模型授权 | 美国 |
| 人类动作数据集 | Bones Studio | BONES-SEED 14.22 万条动作 | 数据集授权 | 国际 |
| 人类动作数据集 | USC Psi-Zero Lab | Ψ₀ 模型 + 训练管线 | 全开源(非商业) | 学术 |
四点趋势判断
趋势 1:类别分化,而不是趋同
2026 年 Q1 之前大家都在讲"通用具身 AI 数据平台",现在清楚了——这个赛道根本不是一个平台能通吃的。仿真派做仿真派的生意,硬件派做硬件派的生意,数据标准派做数据标准派的生意,各自有各自的客户和商业模式,互补大于替代。
趋势 2:硬件一体化派会最快到规模收入
觅蜂科技、京东具身智能、艾欧智能这类有硬件背书的玩家,短期内能最快起规模收入——因为硬件产品有现成的 2B 客户渠道。京东 60 万人采集 1000 万小时的规划如果真落地,会重塑整个行业的数据成本基线。
趋势 3:数据标准与工具链派是最窄但最独特的生态位
国内目前在这个生态位只有朔月智能一家走"schema + toolkit 完全开源 + 数据服务变现"路线。海外对标最接近的是 HuggingFace。这个位置的好处是不与前面各派竞争(反而是他们的潜在合作对象——他们的数据需要一个行业标准容器),坏处是商业化前期慢(比硬件一体化慢,比数据外包慢)。
趋势 4:光轮智能的"80% 市场份额"留给其他派的空间有限
光轮智能公开声称占据全球 80%+ 头部具身 AI 团队的仿真数据服务份额。这个数字如果属实,意味着仿真合成数据这个子赛道已经基本定局——其他仿真玩家很难抢到第一梯队客户,只能做二三梯队或垂直细分。
结语
如果你是投资人在看这个赛道,应该问的问题不是"哪家公司最大",而是"这 7 条路径里,哪条路径在未来 2-3 年的放大器效应最强"。
如果你是创业者在选方向,应该问的问题是"我的团队能力适合这 7 条路径里的哪一条"——仿真需要物理引擎和图形学人才,硬件需要硬件工程师和供应链,数据标准需要 schema 设计和开源运营能力,每一条对团队画像的要求完全不同。
如果你是开发者在选工具,应该问的问题是"我的机器人是哪种形态,我的数据需求是哪一层"——然后从 7 条路径里挑对应的玩家。
这篇盘点还会持续更新。如果你知道我漏掉了哪家值得盘点的公司,或者我对某家公司的定位写错了,欢迎在评论区或邮件纠正。
*本文为行业公开观察,基于公司官网、公开技术文档、行业报道(截至 2026-04-20)整理。