从 RT-2 到 π0 到 Helix 到 GEN-0,VLA(视觉-语言-动作模型)是当前机器人领域最热的方向,也是唯一最可能通向通用机器人的路径。Physical Intelligence 融了 11 亿美金,Figure AI 估值 390 亿美金,Google 拿 Gemini 做机器人大脑。但在跟踪了两年的论文和架构演进之后,我的判断是:所有人都在追的那条路——端到端训练一个完全通用的 VLA 基础模型——短期内大概率走不通。 本文将从技术原理、数据瓶颈、产业格局到替代架构,系统论证这个判断,并提出一条更务实的模块化破局思路。
一、VLA 是什么:机器人的"大语言模型时刻"
1.1 从感知到行动的范式跃迁
传统机器人系统是模块化管线:感知模块识别物体 → 规划模块计算路径 → 控制模块执行动作。每个模块之间用手工定义的接口连接,在受控环境中工作尚可,一旦环境变化或任务灵活,接口就会崩溃。
VLA(Vision-Language-Action Model)代表了一种完全不同的范式:用一个端到端的神经网络,同时处理视觉输入、语言指令和动作输出。 输入一张机器人看到的图片和一句自然语言指令("把红色杯子放到架子上"),直接输出连续的关节控制信号。没有中间的符号化表示,没有手工管线。
这个思路的灵感直接来自 LLM 的成功。LLM 的核心洞察是:如果你把足够多的文本数据灌给一个足够大的 Transformer,它会"涌现"出理解和推理能力。VLA 的赌注是:如果你把足够多的机器人操作数据灌给一个足够大的视觉-语言模型,它也会涌现出通用的操作能力。
1.2 核心架构:从 RT-2 到双系统设计
VLA 的架构演进经历了几个关键阶段:
第一代:端到端文本化(RT-2,2023)
Google DeepMind 的 RT-2 开创了 VLA 这个品类。它的核心思路极其简洁:把机器人的动作表示为文本 token(如 "1 128 91 241 5 101 127 217"),然后把这些动作 token 和普通的语言 token 混在一起,用一个预训练的视觉-语言模型(PaLM-E 或 PaLI-X)进行联合微调。从此,机器人控制变成了"另一种语言"。
RT-2 证明了一个关键假设:互联网规模的视觉-语言预训练知识可以迁移到机器人控制中。一个从未见过苹果的机器人策略,因为底层 VLM 在互联网数据中"见过"苹果,就能理解"把苹果放到碗里"这个指令。
第二代:流匹配与连续动作(π0,2024)
Physical Intelligence 的 π0 在 RT-2 的基础上做了关键改进:用 flow matching(流匹配)替代了离散的 token 预测,直接生成连续的动作轨迹,控制频率提升到 50Hz。它基于 PaliGemma 作为 VLM 骨干,在 Open X-Embodiment 的多机器人数据上训练,实现了 8 种不同机器人形态的跨身体泛化。
第三代:双系统架构(Helix / GR00T N1,2025)
Figure AI 的 Helix 和 NVIDIA 的 GR00T N1 引入了认知科学中的"双系统"设计,这也是目前 VLA 领域的主流架构:
- System 2("慢思考") :一个 7B 参数的 VLM,运行在 7-10 Hz,负责场景理解、语言解析、任务规划。它把所有语义信息蒸馏为一个连续的 latent 向量
- System 1("快行动") :一个 80M-100M 参数的 visuomotor 策略网络,运行在 200 Hz,接收 System 2 的 latent 向量作为条件,生成精细的关节控制信号
这种解耦设计解决了一个根本性矛盾:语义理解需要大模型和慢推理,而精细控制需要小模型和快响应。把它们塞进同一个网络会互相拖累。
Helix 02(2026 年 1 月发布)更进一步,将这个架构扩展到了全身控制——平衡、行走、操作同时进行——用一个神经网络替换了 Figure 机器人原来的 109,504 行手工 C++ 控制代码。
第四代:Harmonic Reasoning(GEN-0,2025)
Generalist AI 的 GEN-0 提出了一种新的思路,试图超越双系统的显式分离:Harmonic Reasoning 架构让感知 token 和动作 token 在同一个 Transformer 中以异步、连续时间流的方式交织处理。"思考"和"行动"不再是两个独立阶段,而是共同演化的连续过程。
1.3 当前竞争格局:谁在做什么
| 公司/机构 | 模型 | 参数量 | 核心特点 | 融资/估值 |
|---|---|---|---|---|
| Physical Intelligence | π0 / π0.6 | 3-5B | 流匹配、跨形态泛化、开源 | 融资 56 亿 |
| Figure AI | Helix / Helix 02 | ~7B (S2) + 80M (S1) | 双系统、全身控制、人形机器人 | 融资 390 亿 |
| Google DeepMind | Gemini Robotics | 基于 Gemini 2.0 | 超强推理、零样本跨形态迁移 | Google 内部 |
| NVIDIA | GR00T N1 | 双系统 | 异构数据混合训练 | NVIDIA 内部 |
| Generalist AI | GEN-0 | 7B-10B+ | Harmonic Reasoning、27 万小时数据 | 未公开 |
| Hugging Face | SmolVLA | 450M | 开源、轻量、社区数据 | 开源项目 |
| 阿里巴巴 | ABot-M0 | — | Action Manifold Learning | 内部 |
二、数据死结:为什么端到端通用 VLA 短期走不通
2.1 GEN-0 揭示的 Scaling Law 真相
GEN-0 的研究提供了目前最清晰的机器人 Scaling Law 实证证据,结论令人清醒:
发现一:7B 是能力相变的门槛。
在 GEN-0 的实验中,1B 参数的模型在大规模数据下出现"骨化"(ossification)——权重失去吸收新信息的能力。6B 模型开始受益于预训练。只有 7B+ 的模型才能真正内化大规模机器人预训练数据,并迁移到下游任务。
GEN-0 团队指出,这个现象呼应了莫拉维克悖论:人类觉得轻而易举的感知和灵巧操作,对计算系统来说需要的复杂度远超抽象推理。 在 LLM 文献中,骨化现象出现在约 10M 参数级别;在机器人领域,这个阈值跃升到了 1B 级别。
发现二:下游任务误差与预训练数据量呈幂律关系——。
这意味着数据量每翻一倍,性能只提升约 30%。要从"勉强可用"提升到"可靠部署",需要数量级的数据增长。
这两个发现加在一起构成了一个严酷的现实:你至少需要 7B+ 的模型(否则根本无法利用数据),同时还需要海量的高质量操作数据(否则 7B 模型也白搭)。
2.2 数据采集的物理速度极限
LLM 的数据来自互联网——几十亿网页、万亿 token,爬取速度只受带宽限制。VLA 的数据必须让真实机器人在真实环境里一帧一帧录制。
GEN-0 号称 270,000 小时的操作数据,已是行业天花板。我们来算一笔账:
- GEN-0 的数据采集速度:每周 10,000 小时(意味着有大量并行采集站点)
- GPT-3 的训练数据:约 45TB 文本,数万亿 token
- VLA 的 270,000 小时视频:假设 10fps、每帧 1KB 特征表示 ≈ 约 10TB
看起来数据量级接近?问题在于信息密度完全不同。 互联网文本中每个 token 都携带语义信息。机器人操作视频中,大量帧是冗余的(机器人在等待、移动到位、空闲状态)。有效的"决策点"远少于总帧数。有研究估算,如果要通过 VLA 的 scaling law 达到真正通用的操作能力,需要的有效训练数据量可能是当前最大数据集的 2500 倍以上。
更致命的是:你有一万张 H100 也没用。数据采集被物理世界的速度卡死了。一个机器人折一件衣服需要 2 分钟,你无法让它在 2 秒内完成。物理世界没有"倍速"按钮。
2.3 模拟器能否破局?
一个自然的反应是:用模拟器生成数据。NVIDIA 的 GR00T N1 确实使用了"数据金字塔"——从互联网视频到模拟数据到真实遥操作数据的混合。Gemini Robotics 也大量使用仿真。
但模拟器面临一个根本性的困难——Sim-to-Real Gap(仿真到现实的差距):
- 物理引擎的不完美:现实世界中软物体(衣服、食物)、流体、多体接触的物理行为极难精确模拟
- 视觉域差异:模拟器渲染的图像与真实相机拍摄的图像在纹理、光照、噪声上有系统性差异
- 长尾场景:真实世界中的意外情况(物体滑落、遮挡、变形)在模拟器中很难穷举
a16z 的一篇深度分析指出了一个残酷的现实:研究论文可以在集群上跑推理然后报告结果,但生产部署需要在机器人能实际承载的硬件上运行。 一个 7B VLA 在边缘硬件上的推理时间约 50-100ms,对应 10-20 Hz 的控制频率——这对于需要紧密反馈环的灵巧操作来说是不够的。
2.4 资源错配的核心论点
把以上分析综合起来,我的核心判断是:
在数据约束短期内无法突破的前提下,追求一个"完全通用的 action model"是资源错配。
具体来说:
- Scaling Law 要求 7B+ 模型 + 海量数据,但当前最大的真实机器人数据集仍远不够
- 数据采集受物理速度限制,无法像 LLM 那样通过增加爬虫来线性扩展
- 模拟器数据的 Sim-to-Real Gap 在精细操作场景中仍然显著
- 资本和人才注意力被 LLM 吸走,机器人方向相对投入不足
这不意味着通用 VLA 永远不可能。这意味着现阶段,把所有资源押注在"训一个完全通用的端到端 VLA"上,大概率是一条效率很低的路。
三、Claude Code 的 Skill 机制给我的启发
3.1 通用模型 + 可插拔技能的架构哲学
最近在使用 Claude Code 时,它的 Skill 机制给了我一个很直接的启发。
Claude Code 的工作方式是:Claude 本身是通用大模型,负责理解意图和推理。当遇到具体的专业任务时(比如创建 Word 文档、处理 PDF、生成 PPT),它会动态加载对应的 Skill 文件来获取专业知识和操作规范。Skill 文件是独立的、可插拔的、按需加载的。
这个架构思路背后的逻辑是:
- 通用能力和专业执行是两种不同的能力,不应该强行塞进同一个模型
- 通用能力(语言理解、推理、规划)已经被互联网规模的预训练很好地解决了
- 专业执行(具体文件格式的操作规范、领域特定的最佳实践)用轻量的、可更新的知识模块来承载
这个架构思路可以直接平移到机器人上。
3.2 VLM + Action Skill 的模块化架构
具体方案:
层一:通用 VLM 底座(共享层)
直接复用现成的通用大模型——Gemini、Qwen-VL、LLaMA-Vision 等——作为视觉-语言骨干。这层负责:
- 场景理解(识别物体、空间关系、材质属性)
- 指令解析(理解自然语言任务描述)
- 任务规划(把高层指令分解为子任务序列)
- 常识推理("这个杯子是易碎的,应该轻拿轻放")
这些能力已经被互联网规模的预训练很好地训练了,不需要从头训练,也不需要机器人操作数据。
层二:轻量 Action Skill(可插拔层)
针对每个垂直应用场景,训练一个轻量的 action model 作为技能模块。每个 Skill 负责:
- 将 VLM 的语义 latent 表示转换为具体的关节控制信号
- 适配特定的机器人形态和动作空间
- 处理特定场景的精细操作约束
Action Skill 的参数量可以很小——80M-100M 级别——因为它不需要"理解世界",只需要"执行动作"。
层三:接口协议(标准化层)
VLM 和 Action Skill 之间需要一个标准化的通信接口。这个接口定义了:
- VLM 向 Action Skill 传递什么信息(latent 向量的维度和语义)
- Action Skill 向 VLM 反馈什么状态(执行是否成功、当前观察)
- 技能切换的协议(何时从一个 Skill 切换到另一个)
3.3 这个架构解决了什么问题
问题一:数据效率
每个 Action Skill 只需要对应场景的少量示范数据。DiffusionVLA(ICML 2025)的研究表明,通过将自回归推理与扩散策略结合,可以用很少的示范数据训练出可用的操作策略。SmolVLA 的实验证明,用不到 30,000 个 episode 就能训练出与大型 VLA 媲美的性能。Figure AI 的 Helix 只用了约 500 小时的示范数据就实现了对数千种未见物体的泛化。
对比来看:训练一个端到端通用 VLA 需要 270,000+ 小时数据,而训练一个场景特定的 Action Skill 可能只需要几十到几百个示范。数据效率差了几个数量级。
问题二:跨机器人适配
不同机器人的动作空间完全不同——一个 7-DoF 机械臂、一个 32-DoF 人形机器人、一个差速底盘的移动机器人,它们的关节构型、自由度、力矩限制都不一样。强求一个模型输出所有动作空间的控制信号,等于要求它同时学会弹钢琴、开飞机和做手术。
模块化架构直接绕过这个问题:不同机器人装不同的 Action Skill。VLM 底座是共享的("把杯子放到架子上"的语义理解对所有机器人都一样),只有执行层针对具体硬件适配。
Green-VLA(2026)的研究提出了一种 Unified Action Space 的方案:把所有运动投影到统一的 R⁶⁴ 空间。但这种投影本身引入了信息损失,且对新增机器人形态需要重新设计投影方式。相比之下,可插拔的 Action Skill 更加灵活和工程友好。
问题三:延迟与部署
这是当前 VLA 部署中最被低估的问题之一。a16z 的分析指出:当前 7B VLA 在边缘硬件(如 NVIDIA Jetson Orin)上的端到端延迟中,高达 75% 被内存带宽受限的动作生成阶段消耗。
模块化架构天然解决了这个问题:
- VLM 跑云端:做低频推理(1-10 Hz),处理场景理解和任务规划
- Action Skill 跑本地:做高频控制(50-200 Hz),处理精细操作
这正是 Helix 和 GR00T N1 的双系统架构已经在做的事情。区别在于:在现有方案中,System 1 和 System 2 是端到端联合训练的;在模块化方案中,VLM 底座是预训练冻结的,只有 Action Skill 需要训练。这大幅降低了训练成本。
四、关键未解问题:接口协议怎么定义
4.1 核心挑战:latent 表示的标准化
VLM 和 Action Skill 之间的接口是这个架构的咽喉要道。如果定义得不好,模块化的优势就不存在了。
当前的双系统架构中,System 2 传递给 System 1 的通常是一个固定维度的 latent 向量。但这个向量是端到端训练出来的,没有显式的语义结构——它是一个"黑盒"表示。
要让 Action Skill 真正可插拔,接口需要更加结构化。几种可能的方向:
方向一:语义化中间表示
不传递黑盒向量,而是传递结构化的任务描述:目标位姿、约束条件、力控参数等。这类似于传统机器人中的"任务空间"表示,但由 VLM 自动生成。
方向二:自然语言子任务序列
VLM 输出自然语言格式的子任务描述(如"左手移动到杯子上方 5cm → 张开夹爪 → 下降 5cm → 闭合夹爪 → 提升 10cm"),Action Skill 解析执行。Google 的 SayCan 和 PaLM-E 已经探索了这个方向。
方向三:多层级 latent 通信
借鉴 Helix 的做法,定义多个层级的通信:高层目标(what)、中层轨迹(how roughly)、低层控制(how exactly)。每层都有标准化的维度和语义。
方向四:学习出来的通用接口
训练一个"接口转换器"(Interface Adapter),它的输入是任意 VLM 的输出,输出是标准化的条件向量。类似于 NLP 中 adapter 的思路。
4.2 MCP 给出的平行启示
值得注意的是,在 LLM Agent 领域,一个类似的接口标准化问题正在被解决。Anthropic 提出的 MCP(Model Context Protocol)定义了 LLM 与外部工具之间的标准通信协议。MCP 的核心设计:
- 工具描述标准化(每个工具声明自己能做什么、需要什么输入)
- 调用接口统一(请求格式、响应格式、错误处理)
- 工具可独立开发和部署
如果把 MCP 的理念移植到机器人领域——定义一套 Robot Skill Protocol——每个 Action Skill 声明自己能处理什么任务、需要什么传感器输入、输出什么格式的控制信号——就能实现真正的生态化分工。
4.3 生态效应:从"一家公司训一个通用模型"到"所有人贡献场景 Skill"
如果接口协议做好了,整个机器人智能的生态格局将发生根本性变化:
当前格局:每家公司独立训练自己的端到端 VLA,数据不共享,训练成本高,重复劳动严重。
模块化格局:
- VLM 底座提供商:Google(Gemini)、阿里(Qwen-VL)、Meta(LLaMA-Vision)提供通用视觉-语言理解能力
- Action Skill 开发者:垂直场景的集成商独立开发自己的操作技能——餐饮场景的抓取技能、物流场景的分拣技能、家庭场景的清洁技能
- 接口标准组织:定义 VLM-Action Skill 的通信协议
- 开源社区:像 Hugging Face 的 LeRobot 那样,社区贡献和共享 Action Skill
这个生态与当前 LLM 领域的生态高度相似:大模型厂商提供基础能力,应用开发者在上面构建垂直解决方案,接口协议(如 OpenAI API 格式)确保互操作性。
五、技术验证:哪些证据支持模块化方向
5.1 Helix 和 GR00T N1 本质上已经是模块化的
仔细看 Figure AI 的 Helix 架构:System 2 是一个 7B 的 VLM,System 1 是一个 80M 的 visuomotor 策略。它们之间通过一个 latent 向量通信。这本质上就是一种模块化设计——只不过两个模块目前是端到端联合训练的。
如果把 System 2 换成一个通用的预训练 VLM(冻结权重),只训练 System 1 的 Action Skill 部分,训练成本将大幅下降,同时可以利用 VLM 在互联网数据上获得的强大语义理解能力。
NVIDIA 的 GR00T N1 的"数据金字塔"策略也暗示了这个方向:用互联网视频和模拟数据训练通用的视觉-语言理解(对应 VLM 底座),用少量真实遥操作数据训练具体的操作策略(对应 Action Skill)。
5.2 SmolVLA 证明了小模型 + 好骨干 = 大模型性能
Hugging Face 的 SmolVLA 是这个方向最直接的实验验证。它只有 450M 参数(VLM 骨干 + 约 100M 的 Action Expert),用 LeRobot 社区数据训练,但在多个基准上达到了与 OpenVLA(7B)和 π0 媲美的性能。
SmolVLA 的架构设计处处体现了模块化思想:
- 层跳跃(Layer Skipping):Action Expert 只关注 VLM 中间层的特征,跳过上层——因为上层更偏语言生成,对动作预测帮助不大
- 异步推理:VLM 的感知推理和 Action Expert 的动作生成解耦运行,各自按自己的频率工作
- 视觉 token 压缩:每帧只用 64 个 token,而不是 1024 个
5.3 DexVLA 验证了"VLM骨干 + 可插拔扩散专家"的可行性
DexVLA 的架构与我提出的方案高度一致:使用 Qwen2-VL 2B 作为 VLM 骨干,外加一个 1B 参数的 Diffusion Expert 作为动作专家。关键设计:
- VLM 生成"推理 token"和"动作 token"两种输出
- 推理 token 用自然语言表达任务分解
- 动作 token 作为 Diffusion Expert 的条件输入
- Diffusion Expert 使用多头输出设计,每个头对应一种机器人形态——这正是"可插拔 Action Skill"的雏形
更有意思的是,DexVLA 在 VLM 和 Action Expert 之间放了一个 stop gradient——防止动作预测的梯度"污染" VLM 的语言能力。这个设计选择明确表达了"通用理解和专业执行应该解耦"的工程直觉。
5.4 Gemini Robotics On-Device:云端+本地的混合部署验证
Google DeepMind 在 2025 年 6 月发布的 Gemini Robotics On-Device 是对"大模型跑云端、轻量模型跑本地"这个部署模式的直接验证。它是 Gemini Robotics 的轻量版,优化了本地运行的延迟和可靠性,同时保持了灵巧操作能力。
这证明了:高频控制完全可以在边缘设备上完成,不需要把整个大 VLM 塞进机器人里。
六、反驳与风险:模块化方案的局限性
6.1 端到端论者会怎么说
反驳一:"端到端训练的信息传递更高效"
的确,模块化接口必然带来信息损失。VLM 内部的完整表示被压缩成一个 latent 向量或结构化描述时,某些微妙的语义信息可能丢失。端到端训练允许 System 1 和 System 2 之间发展出高效的、task-specific 的通信编码。
我的回应:这个论点在理论上成立,但在实践中被数据瓶颈压过。端到端训练的信息效率优势,需要足够的训练数据才能体现。如果数据不够,端到端训练反而容易过拟合到训练场景。模块化方案虽然接口有损,但可以用预训练 VLM 的强大泛化能力来弥补。
反驳二:"通用 VLA 正在快速进步"
Physical Intelligence 的 π0.6 引入了 RECAP(从经验和纠正中学习的 RL),展示了 VLA 可以通过在线学习持续改进。GEN-0 的 scaling law 证明了数据量的增加确实能带来可预测的性能提升。
我的回应:进步是真实的,但速度不够。270,000 小时已经是天花板级的数据量,而且每周只能增加 10,000 小时。按 scaling law 的幂律关系,要达到"可靠部署"级别,可能还需要数量级的增长——这在物理采集约束下需要数年时间。模块化方案是在这个等待期内"先把能落地的事做了"。
6.2 模块化方案自身的风险
风险一:接口标准化的鸡生蛋问题
没有标准就没有生态,没有生态就没人愿意定义标准。LLM 领域之所以快速收敛到 OpenAI 的 API 格式,是因为 OpenAI 有压倒性的市场份额。机器人领域还没有这样的霸主。
风险二:Action Skill 的泛化上限
每个 Skill 只针对特定场景训练,场景之间的迁移能力有限。如果一个餐饮 Skill 遇到了训练中没见过的餐具,它可能无法处理。通用 VLA 理论上可以通过共享表示来缓解这个问题。
风险三:系统复杂度
模块化引入了额外的系统复杂度——模块间通信的延迟、版本兼容性、故障隔离等。在生产环境中,这些工程问题可能比模型性能更加棘手。
七、路线图:如果你想沿着模块化方向做事
7.1 对研究者
- VLM-to-Action 接口的标准化研究:目前最缺乏的研究方向。需要系统性地对比不同接口设计(latent 向量 vs 结构化描述 vs 自然语言子任务)的信息保真度和泛化能力
- 少样本 Action Skill 训练:进一步降低每个 Skill 所需的示范数据量。DiffusionVLA、TinyVLA 的方向值得继续深挖
- Skill 组合与迁移:研究多个 Skill 如何组合执行复杂任务,以及 Skill 之间的知识迁移
7.2 对创业者
- 垂直场景的 Action Skill 供应商:选择一个垂直场景(餐饮、物流分拣、农业采摘),针对特定机器人形态训练高质量的 Action Skill。护城河在于场景 know-how 和数据积累
- Robot Skill Protocol 标准的推动者:成为机器人领域的"OpenAI API 格式"制定者。这需要强大的生态号召力,可能由 NVIDIA(GR00T 平台)或 Hugging Face(LeRobot)来牵头
- Action Skill 的自动化生成:类似于 LLM 的 fine-tuning 服务,提供"上传示范数据 → 自动训练 Action Skill → 部署到机器人"的 SaaS 平台
7.3 对工程师
- 学习 LeRobot 和 SmolVLA:Hugging Face 的 LeRobot 是目前最好的开源 VLA 训练框架,SmolVLA 是模块化架构的优秀参考实现
- 理解双系统架构:Helix 和 GR00T N1 的论文是必读材料,它们代表了 VLA 架构的最前沿
- 关注 MCP 在机器人领域的扩展:如果有人把 MCP 的理念适配到机器人技能协议上,这可能成为行业标准
八、结论:先用模块化把能落地的事做了
通用机器人基础模型是一个美好的愿景。在足够长的时间尺度上,它大概率会实现——当数据采集技术突破物理速度极限(比如通过高度逼真的仿真、人类视频到机器人策略的迁移、或全新的数据采集范式),当 Scaling Law 在机器人领域被充分验证,当算力成本继续下降。
但现阶段的数据现实不支撑这个愿景的短期实现。
与其把所有赌注押在"复现 LLM 的 Scaling Law 奇迹"上,不如先用模块化架构把能落地的事做了:
- 用互联网规模预训练的 VLM 解决"理解世界"的问题——这个问题已经被解决了
- 用轻量可插拔的 Action Skill 解决"在特定场景中执行特定操作"的问题——这个问题用少量数据就能解决
- 用标准化的接口协议把两者连接起来——这个问题需要生态共建
这条路不是对通用 VLA 的否定,而是在通用 VLA 成熟之前的务实过渡方案。当 Scaling Law 在机器人领域被充分验证的那天,模块化架构中的 Action Skill 自然可以被一个通用的 Action Model 替代。但在那之前,模块化让我们可以用今天能获得的数据,在今天就部署有用的机器人。
毕竟,LLM 的辉煌不是因为一步到位训了一个通用模型,而是因为它先在编程辅助、客服、写作等垂直场景中证明了价值,然后才逐步走向通用。机器人智能的路径,大概率也是如此。
致谢:本文的核心架构灵感来自 Claude Code 的 Skill 机制。技术分析基于 RT-2、π0、Helix、GR00T N1、GEN-0、SmolVLA、DexVLA、DiffusionVLA 等公开论文和技术报告。产业数据来自公开的融资和估值信息。
互动话题:你认为机器人智能的突破口在于端到端的通用模型,还是模块化的"VLM + Action Skill"架构?你所在的机器人项目中,数据瓶颈有多严重?欢迎在评论区交流。