过去两年,如果你同时关注大模型和汽车行业,大概率会有一种很强的错位感。

0 阅读13分钟

Gemini_Generated_Image_weif4rweif4rweif.png

过去两年,如果你同时关注大模型和汽车行业,大概率会有一种很强的错位感。 一边是 AI 圈在聊 Agenttool usereasoningClaude CodeMCP
另一边是汽车圈在聊 端到端VLA世界模型占据网络700 TOPS

表面上看,两边都在讲 AI。
但如果把这些词放到同一张图里,你会发现它们谈论的根本不是同一类系统。

img-source-huawei-ads.png AI 圈熟悉的是数字世界里的智能系统:输入文本、图片、代码,输出回答、方案、内容。
汽车行业今天在推进的,则是另一种更硬的 AI:它要持续感知物理世界、在极短延迟里完成决策,并且为动作结果承担后果。

这也是为什么我越来越觉得,今天真正值得技术人认真理解的,不只是“车企也开始讲大模型”这件事,而是:

汽车正在成为当前最成熟、规模最大、工程约束最严苛的具身智能试验场。

如果只想先抓重点,可以先看这张表:

容易误解的点更接近真实情况的理解
智驾就是“车里装了个 ChatGPT”智驾更像一套多层 AI 实时协同系统
具身智能主要看机器人今天最成熟的大规模具身平台其实是汽车
700 TOPS 约等于“两张 4090 上车”车端芯片、家用显卡、云端训练集群根本不是同一岗位
大家都在讲 AI,所以路线差不多Tesla、小米、小鹏、华为、理想、比亚迪已经明显分路

一、为什么汽车比机器人更像今天的具身智能主战场

很多人一听“具身智能”,脑子里最先出现的是人形机器人。

这个直觉没错,但如果我们把问题换成:

谁已经在真实世界里大规模部署了带传感器、执行器、实时反馈和持续数据回流的 AI 系统?

那汽车就很难被绕开。

原因很简单。一辆现代智驾车天然就具备具身智能最关键的四个组成部分:

  • 有输入:摄像头、雷达、超声波、导航、定位等多源传感器
  • 有执行:方向盘、刹车、油门、转向、泊车等动作接口
  • 有实时闭环:道路环境每一秒都在变化
  • 有大规模部署:不是实验室原型,而是真正在卖、在跑、在 OTA

把机器人和汽车放到同一张表里看,会更清楚:

维度机器人智驾汽车
现实部署规模还在加速早期扩张已经形成大规模车队
数据回流密度仍在积累阶段道路数据持续回流
传感器和执行器成熟度高度异构,成本较高已形成成熟供应链
商业化状态更多是高预期赛道已经是消费级和产业级产品
为什么值得技术人优先关注代表长期方向代表今天已经落地的具身系统

所以汽车并不是“未来某一天可能会成为具身智能平台”。

更准确的说法是:

汽车已经是今天最成熟、最昂贵、最持续在线的现实世界 AI 系统之一。

这也是为什么最近车企的发布会,会越来越像一场 AI 系统架构发布会,而不只是传统汽车发布会。

二、智驾不是一个大模型,而是 5 层 AI 架构的接力系统

很多 AI 从业者第一次看汽车智驾,很容易套用自己熟悉的心智模型:

“所以车上是不是也有一个类似 GPT-4 的超级大脑,只不过它除了能聊天,还能开车?”

这个理解很自然,但偏差很大。

今天主流智驾系统通常不是“一个超级模型统治一切”,而是多层模型和算法在不同时间尺度上持续协同。粗略拆开看,至少可以理解成下面 5 层:

层级主要任务输入输出更像什么
感知 AI识别道路、车辆、行人、障碍物多路传感器数据场景理解结果实时视觉理解系统
预测 AI估计交通参与者接下来怎么动感知结果 + 历史轨迹未来轨迹分布短时物理世界预测器
规划 AI决定当前怎么开感知 + 预测 + 地图/导航行为与路径决策驾驶策略层
控制 AI把决策变成真实动作规划结果 + 车身状态转向/制动/加速控制信号低延迟执行器
交互 AI负责座舱和自然语言体验用户语音/座舱上下文对话、指令理解、交互结果最像普通人理解里的大模型

如果换成工程视角,它更像下面这个链条:

Sensors
  -> Perception
  -> Prediction
  -> Planning
  -> Control
  -> Vehicle Action

而“语音助手”“一句话泊车”“座舱助手”这一类最像大模型的能力,很多时候其实主要落在交互层。

这也是为什么很多普通用户会误以为“智驾 = 车里装了个聊天模型”。

因为交互层最容易被感知、最容易被演示、也最像过去两年大家熟悉的 AI 产品形态。

但真正决定一辆车能不能稳定跑起来的,核心不在交互层,而在前四层能不能在极短时间窗口里连续做对。

1. 感知层解决的是“看见什么”

这一层的核心任务不是“理解世界的意义”,而是先把道路世界正确拆出来:

  • 车道线在哪里
  • 前车是谁
  • 旁边有没有非机动车
  • 路边是不是行人
  • 这个障碍物到底是静态锥桶还是动态目标

从工程角度看,这一层更接近实时视觉理解系统,而不是聊天模型。

2. 预测层解决的是“别人下一秒会怎么动”

看见前车不算难,难的是预测它几秒后会不会突然并线、减速或者加塞。

这层 AI 干的是一种很窄但极难的任务:

在有限时域内做物理轨迹预测。

它不像通用大模型那样追求开放式知识推理,但它要在小窗口里稳定预判真实世界的动作风险。

3. 规划层解决的是“现在该怎么办”

规划层更像整套系统的策略中枢。

它要根据当前理解和未来预测,决定此刻最合理的动作组合:

  • 跟车
  • 让行
  • 变道
  • 超车
  • 减速
  • 刹停

最近车企频繁提到的 世界模型VLA端到端,很多都和这一层的演进有关。

4. 控制层解决的是“把决策精确变成动作”

这层通常最不性感,但往往最关键。

规划说“该往左轻打一点方向”,控制层要回答的是:

  • 左打多少角度
  • 持续多久
  • 制动力度要多大
  • 在当前轮胎、路面和车速条件下怎么做才最稳

这也是为什么汽车 AI 不只是“模型够大就行”,它还深度依赖传统控制理论、实时系统工程和安全验证。

5. 交互层才是最像 ChatGPT 的那一层

如果说哪一层最像大家熟悉的大模型,那确实是交互层。

比如:

  • 语音控车
  • 自然语言目的地设置
  • 座舱问答
  • 一句话泊车或一句话完成某类车控动作

但问题也恰恰在这里:

最像 ChatGPT 的那一层,不等于整套智驾系统。

所以当车企讲“大模型上车”时,技术人最好先问一句:

它是在说交互层,还是在说整个驾驶系统的感知、预测、规划和控制能力都被重构了?

三、为什么 700 TOPS 不能直接翻译成“两张 RTX 4090”

这是汽车 AI 里另一个高频误解。

很多人一看到车企公布 700 TOPS,会本能地拿它和自己熟悉的 RTX 4090H100 甚至本地跑模型的体验对比。

但问题是,这几类算力本来就不在同一张岗位说明书里。

先看一张对比表:

类型主要任务关注指标典型工作环境不能简单类比成什么
云端训练算力训练大模型、回灌海量数据、持续迭代总吞吐、训练规模、集群效率数据中心不是车上实时推理电脑
车端芯片低延迟推理、多路传感器接入、实时执行稳定性、功耗、温度、延迟高温、振动、断网也要能跑不是家用显卡换壳
家用显卡本地推理、开发、文生图、个人实验显存带宽、推理速度、成本桌面机/工作站不是车规级实时系统

更准确的理解方式应该是:

训练在云端,干活在车端。

也就是说,车企会在云端用大规模算力把模型练出来,再把适合实时推理的能力压缩、部署到车上。

这和我们平时用 ChatGPT 或本地跑 7B/32B/70B 模型,是完全不同的系统设计目标。

对于车端系统来说,关键不是“参数量大不大”,而是:

  • 延迟够不够低
  • 实时性够不够稳定
  • 多传感器吞吐能不能扛住
  • 极端温度和振动环境下是否可靠
  • 安全验证是否足够严格

所以 700 TOPS 这个数字当然重要,但它不是一个可以脱离场景单独吹的参数。

如果硬要把它翻译成技术人的一句人话,那大概是:

这不是“把一张游戏显卡搬进车里”,而是在说车上有一套必须长期稳定运行的、低延迟的、车规级推理系统。

四、今天头部玩家讲的都是 AI,但路线已经明显分化

如果把视野拉到行业层面,会发现“大家都在讲 AI”并不意味着“大家在做同一种事”。

当前更值得看的,其实是各家在押注哪条能力链条。

玩家更像在押注什么路线关键词
Tesla现实世界数据飞轮 + 纯视觉神经网络FSD、纯视觉、车队数据闭环
小米把基础模型叙事往汽车和具身系统迁移MiMoMiMo-EmbodiedVLA
小鹏云端世界基座模型 + 端云协同72B、世界模型、端云协同
华为系统工程与端到端整合能力ADS、端到端、难例强化
理想驾驶系统和座舱 Agent 的衔接驾驶/座舱协同、自然语言体验
比亚迪把智驾能力跑成规模化普及能力大车队、普及路线、数据回流

如果把这些路线进一步抽象一下,会看到至少三种不同的系统哲学:

1. 押数据飞轮

代表思路是 Tesla 这一派。

核心判断是:现实世界里的长尾驾驶能力,最后要靠海量真实数据回流和持续 OTA 打磨出来。

2. 押大模型和新架构迁移

img-source-xiaomi-pilot.png

img-source-xpeng-ai.png 小米、小鹏更接近这条路线。

它们更积极地把最近两年 AI 领域里的 VLA世界模型、大基座模型叙事往汽车迁移,希望把汽车理解成现实世界的模型执行端。

3. 押系统工程和整合能力

华为、理想、比亚迪则更让人看到另一种现实:

当一个系统真的要落到真实车辆和真实用户手里时,工程集成、稳定性、供应链和规模化部署能力,有时候比单点模型叙事更重要。

这也意味着,汽车 AI 的竞争不是单纯比谁的论文更新、参数更大,而是比谁能更早把下面这条链条闭环:

真实世界数据
  -> 大规模训练
  -> 车端实时推理
  -> 安全验证
  -> OTA 回流
  -> 再训练

五、这件事对技术人真正重要的地方,不是“车企也在蹭 AI”

很多技术人看到车企开始密集讲 Agent 风格词汇、讲模型、讲算力,第一反应是:

“是不是又一轮 PPT AI?”

这种警惕当然合理,但如果只停在这一步,其实容易错过更关键的变化。

因为汽车行业现在推进的,并不是简单把“会聊天的大模型”塞进车里,而是在逼整个 AI 行业面对一个更硬的问题:

当模型进入物理世界之后,怎么在感知、预测、规划、控制和安全约束里长期稳定工作?

这和我们熟悉的很多软件系统问题并不一样。

在数字世界里,模型出错往往还可以:

  • 重试
  • 回滚
  • 等用户二次确认
  • 延迟几秒再给结果

但在道路上,错误通常没有这么宽松的恢复机制。

所以汽车行业的重要性,不只在于它是一个热门赛道,而在于它把 AI 推向了一个更残酷的验证环境:

  • 不是只比“会不会生成”
  • 而是比“能不能持续行动”
  • 不是只比“看起来聪不聪明”
  • 而是比“系统能不能长时间不犯致命错误”

从这个角度看,汽车其实正在帮整个 AI 行业提前暴露一个未来共性问题:

当 AI 从聊天框走向现实世界之后,系统设计的核心会从“表达能力”转向“行动可靠性”。

六、结语:下一代 AI 的重心,可能先从方向盘开始变化

如果回看过去三年,AI 最耀眼的主战场还是数字世界:

  • 会聊天
  • 会写代码
  • 会生成图像和视频
  • 会搜索和调用工具

但接下来的竞争,很可能不只是“谁更会生成”,而是:

谁更能在物理世界里稳定感知、持续决策并承担后果。

汽车未必是具身智能的终局,但它几乎一定是今天最硬核、最现实、也最有规模的试金石。

它把 AI 里很多原本可以模糊处理的概念,都压缩成了非常具体的工程问题:

  • 感知是否准确
  • 预测是否稳定
  • 规划是否合理
  • 控制是否可靠
  • 推理是否足够低延迟
  • 整个系统是否能在现实世界里长期承担后果

如果你过去一直把 AI 理解成“会聊天的大模型”,那现在也许真的该把视角从聊天框往外移一点了。

因为下一阶段最重要的 AI 竞争,未必先改变的是你和模型对话的窗口。

它很可能先改变的是:

方向盘、道路,以及 AI 在现实世界里的行动能力。