两个 80%:王兴兴定义的具身智能 “ChatGPT 时刻”

1 阅读6分钟

2026 年 GTC** 大会上,宇树科技创始人王兴兴的演讲,像一盆清醒的冷水,浇在了当下火热的具身智能赛道上。

当全行业都在喊 “人形机器人马上走进家庭” 时,这位深耕机器人领域十余年的老兵,用最直白的判断戳破了行业幻觉:我们离真正的 “ChatGPT 时刻”,至少还有 1-2 年,甚至更久

这场演讲不止是宇树的技术秀,更是一份写给行业的 “诊断报告”—— 从春晚舞台的功夫炫技,到工厂车间的实用落地,从硬件性能的内卷,到模型能力的比拼,王兴兴把具身智能的现状、瓶颈和未来,讲得透彻又清醒。

从春晚到工厂:

运动能力,才是干活的前提

今年央视春晚上,宇树机器人的《武 BOT》节目火遍全网:醉拳、双截棍、连续空翻…… 几十台机器人在舞台上完成高难度动作,让观众惊呼 “科幻照进现实”。但王兴兴却反复强调:炫技不等于实用,运动能力才是机器人干活的前提

“没有足够丰富的动作表达、没有足够高的稳定性,机器人就很难真正走进工厂、家庭。” 在他看来,机器人就像动物,先要有灵活的 “身体”,才能谈发达的 “大脑”。

宇树的 H1 人形机器人,已经能做到长跑 1500 米、任意动作下抗冲击、摔倒后自主起身;春晚表演里,机器人能瞬间停稳再切换下一个动作,靠的不是单个动作训练,而是预训练全身 RL 模型带来的系统稳定性。这些技术,本质上都是在为 “干活” 打基础 —— 只有先能稳定行走、精准动作,才能谈抓取零件、搬运货物。

但王兴兴也坦言,大尺寸人形机器人的安全问题仍需警惕:“整机更重、力量更大,近距离接触时必须保持 2-3 米安全距离,否则容易受伤。” 这也意味着,机器人从 “表演” 走向 “生活”,还有很长的路要走。

行业痛点:

三个坎,拦住了具身智能的爆发

在王兴兴的定义里,具身智能的 “ChatGPT 时刻”,是在 80% 的陌生场景里,仅凭语言指令就能完成 80% 的任务,无需重新训练、提前部署。而要跨过这个临界点,行业必须解决三个核心问题:

1. 模型泛化**能力:连 “表达” 都没做好,谈何执行?

现在的具身智能模型,大多只能完成预设的简单动作,一旦遇到陌生场景或复杂任务,就会 “失灵”。王兴兴直言:“很多模型连‘表达’动作本身都做不到,更别说高质量执行了。”

比如让机器人实时生成一套新的武术动作,或是在从未见过的车间里完成零件装配,现有模型很难完整表达任务逻辑,更别说稳定落地。这背后,是多模态感知、模型编码器 / 解码器等底层能力的不足,也是制约泛化的核心瓶颈。

2. 数据效率:别再靠 “堆真机” 解决问题了

机器人数据稀缺,是全行业的共识。但王兴兴认为,问题不在数据少,而在利用率低:“如果必须依赖海量真机数据才能训练模型,这个路径太慢了。”

他主张,预训练阶段应优先复用互联网视频、文本和仿真数据,先把基础模型 “喂饱”,再用少量真机数据做微调。“哪怕有一万台机器人,派一万人采数据,效果也不一定好 —— 硬件差异、数据质量都会拖后腿。” 只有摆脱对真机采集的依赖,才能跑出规模效应。

3. 强化学习:让每一次训练,都成为未来的积累

现在的机器人训练,大多是 “一次性” 的:一个动作练完,数据就丢了;下次做新动作,又要从头开始。而大语言模型的成功,恰恰在于能积累和复用海量知识。

王兴兴呼吁,行业要建立强化学习的 “知识沉淀机制”:把每次训练的动作数据、策略经验,统一放进基础模型里复用,让模型 “越练越强”。只有这样,才能避免重复造轮子,让强化学习产生真正的规模效应。

技术路线:

世界模型,才是未来的天花板**

当下行业扎堆的 VLA**(视觉 - 语言 - 动作)模型,在王兴兴眼里 “天花板有限”。他更看好世界模型或视频生成模型,因为这条路线能复用互联网海量数据,想象空间更大。

“VLA 模型确实有价值,但泛化能力瓶颈明显;而世界模型可以用视频、文本数据预训练,先在‘想象’里生成动作,再和真机执行对齐。” 宇树已经开源了基于视频生成的世界模型,展示效果亮眼,但也面临核心难题:视频模态和真机模态的对齐误差—— 视频里的毫米级误差,落到机器人身上可能就是 “完全失败”。

王兴兴判断,未来的突破点,一定是 “视频生成 + 强化学习” 的结合:先用视频数据预训练基础能力,再用强化学习做真机对齐,才能真正跑通具身智能的实用化路径。

行业清醒:

别内卷硬件,要拼底层能力

当很多厂商还在卷机器人身高、负载、电机参数时,王兴兴戳破了真相:制约行业爆发的,早已不是单一硬件性能,而是模型、数据、算法的系统性能力

他反对恶性内卷,主张 “行业好才是真的好”:“具身智能不是一两家公司、一个国家能做成的事,需要全球合作。” 在他看来,未来的竞争,是底层能力的比拼 —— 谁能先突破泛化瓶颈、提升数据效率、沉淀强化学习知识,谁就能率先摸到 “两个 80%” 的临界点。

从春晚的 “功夫模式”,到未来的 “打工模式”,宇树已经在工业、消费、康养等场景布局:和车企合作探索工厂应用,推进商业导览落地,甚至用全身遥操作技术**实现 “远程代人出席”。王兴兴预计,今年全球人形机器人出货量将达几万台,宇树的目标是 1-2 万台,但他也提醒:“具身智能大脑还不够通用,离走进普通家庭,还有很长的路要走。”

写在最后

王兴兴的这场 GTC 演讲,没有华丽的概念,只有对行业的坦诚。当所有人都在狂欢 “具身智能马上爆发” 时,他用最清醒的声音告诉我们:真正的 “ChatGPT 时刻”,从来不是靠炫技吹出来的,而是靠啃下泛化、数据、强化学习这三块硬骨头,一步步走出来的

对于从业者而言,这或许是最好的提醒:别被舞台上的功夫迷惑,沉下心打磨底层能力,才能等到那个属于具身智能的历史性时刻。