两个 80%：王兴兴定义的具身智能 “ChatGPT 时刻”2026 年 GTC** 大会上，宇树科技创始人王兴兴的演讲

2026 年 GTC** 大会上，宇树科技创始人王兴兴的演讲，像一盆清醒的冷水，浇在了当下火热的具身智能赛道上。

当全行业都在喊 “人形机器人马上走进家庭” 时，这位深耕机器人领域十余年的老兵，用最直白的判断戳破了行业幻觉：我们离真正的 “ChatGPT 时刻”，至少还有 1-2 年，甚至更久。

这场演讲不止是宇树的技术秀，更是一份写给行业的 “诊断报告”—— 从春晚舞台的功夫炫技，到工厂车间的实用落地，从硬件性能的内卷，到模型能力的比拼，王兴兴把具身智能的现状、瓶颈和未来，讲得透彻又清醒。

从春晚到工厂：

运动能力，才是干活的前提

今年央视春晚上，宇树机器人的《武 BOT》节目火遍全网：醉拳、双截棍、连续空翻…… 几十台机器人在舞台上完成高难度动作，让观众惊呼 “科幻照进现实”。但王兴兴却反复强调：炫技不等于实用，运动能力才是机器人干活的前提。

“没有足够丰富的动作表达、没有足够高的稳定性，机器人就很难真正走进工厂、家庭。” 在他看来，机器人就像动物，先要有灵活的 “身体”，才能谈发达的 “大脑”。

宇树的 H1 人形机器人，已经能做到长跑 1500 米、任意动作下抗冲击、摔倒后自主起身；春晚表演里，机器人能瞬间停稳再切换下一个动作，靠的不是单个动作训练，而是预训练全身 RL 模型带来的系统稳定性。这些技术，本质上都是在为 “干活” 打基础 —— 只有先能稳定行走、精准动作，才能谈抓取零件、搬运货物。

但王兴兴也坦言，大尺寸人形机器人的安全问题仍需警惕：“整机更重、力量更大，近距离接触时必须保持 2-3 米安全距离，否则容易受伤。” 这也意味着，机器人从 “表演” 走向 “生活”，还有很长的路要走。

行业痛点：

三个坎，拦住了具身智能的爆发

在王兴兴的定义里，具身智能的 “ChatGPT 时刻”，是在 80% 的陌生场景里，仅凭语言指令就能完成 80% 的任务，无需重新训练、提前部署。而要跨过这个临界点，行业必须解决三个核心问题：

1. 模型泛化**能力：连 “表达” 都没做好，谈何执行？

现在的具身智能模型，大多只能完成预设的简单动作，一旦遇到陌生场景或复杂任务，就会 “失灵”。王兴兴直言：“很多模型连‘表达’动作本身都做不到，更别说高质量执行了。”

比如让机器人实时生成一套新的武术动作，或是在从未见过的车间里完成零件装配，现有模型很难完整表达任务逻辑，更别说稳定落地。这背后，是多模态感知、模型编码器 / 解码器等底层能力的不足，也是制约泛化的核心瓶颈。

2. 数据效率：别再靠 “堆真机” 解决问题了

机器人数据稀缺，是全行业的共识。但王兴兴认为，问题不在数据少，而在利用率低：“如果必须依赖海量真机数据才能训练模型，这个路径太慢了。”

他主张，预训练阶段应优先复用互联网视频、文本和仿真数据，先把基础模型 “喂饱”，再用少量真机数据做微调。“哪怕有一万台机器人，派一万人采数据，效果也不一定好 —— 硬件差异、数据质量都会拖后腿。” 只有摆脱对真机采集的依赖，才能跑出规模效应。

3. 强化学习：让每一次训练，都成为未来的积累

现在的机器人训练，大多是 “一次性” 的：一个动作练完，数据就丢了；下次做新动作，又要从头开始。而大语言模型的成功，恰恰在于能积累和复用海量知识。

王兴兴呼吁，行业要建立强化学习的 “知识沉淀机制”：把每次训练的动作数据、策略经验，统一放进基础模型里复用，让模型 “越练越强”。只有这样，才能避免重复造轮子，让强化学习产生真正的规模效应。

技术路线：

世界模型，才是未来的天花板**

当下行业扎堆的 VLA**（视觉 - 语言 - 动作）模型，在王兴兴眼里 “天花板有限”。他更看好世界模型或视频生成模型，因为这条路线能复用互联网海量数据，想象空间更大。

“VLA 模型确实有价值，但泛化能力瓶颈明显；而世界模型可以用视频、文本数据预训练，先在‘想象’里生成动作，再和真机执行对齐。” 宇树已经开源了基于视频生成的世界模型，展示效果亮眼，但也面临核心难题：视频模态和真机模态的对齐误差—— 视频里的毫米级误差，落到机器人身上可能就是 “完全失败”。

王兴兴判断，未来的突破点，一定是 “视频生成 + 强化学习” 的结合：先用视频数据预训练基础能力，再用强化学习做真机对齐，才能真正跑通具身智能的实用化路径。

行业清醒：

别内卷硬件，要拼底层能力

当很多厂商还在卷机器人身高、负载、电机参数时，王兴兴戳破了真相：制约行业爆发的，早已不是单一硬件性能，而是模型、数据、算法的系统性能力。

他反对恶性内卷，主张 “行业好才是真的好”：“具身智能不是一两家公司、一个国家能做成的事，需要全球合作。” 在他看来，未来的竞争，是底层能力的比拼 —— 谁能先突破泛化瓶颈、提升数据效率、沉淀强化学习知识，谁就能率先摸到 “两个 80%” 的临界点。

从春晚的 “功夫模式”，到未来的 “打工模式”，宇树已经在工业、消费、康养等场景布局：和车企合作探索工厂应用，推进商业导览落地，甚至用全身遥操作技术**实现 “远程代人出席”。王兴兴预计，今年全球人形机器人出货量将达几万台，宇树的目标是 1-2 万台，但他也提醒：“具身智能大脑还不够通用，离走进普通家庭，还有很长的路要走。”

写在最后

王兴兴的这场 GTC 演讲，没有华丽的概念，只有对行业的坦诚。当所有人都在狂欢 “具身智能马上爆发” 时，他用最清醒的声音告诉我们：真正的 “ChatGPT 时刻”，从来不是靠炫技吹出来的，而是靠啃下泛化、数据、强化学习这三块硬骨头，一步步走出来的。

对于从业者而言，这或许是最好的提醒：别被舞台上的功夫迷惑，沉下心打磨底层能力，才能等到那个属于具身智能的历史性时刻。