过去两年,如果你同时关注大模型和汽车行业,大概率会有一种很强的错位感。
一边是 AI 圈在聊 Agent、tool use、reasoning、Claude Code、MCP。
另一边是汽车圈在聊 端到端、VLA、世界模型、占据网络、700 TOPS。
表面上看,两边都在讲 AI。
但如果把这些词放到同一张图里,你会发现它们谈论的根本不是同一类系统。
AI 圈熟悉的是数字世界里的智能系统:输入文本、图片、代码,输出回答、方案、内容。
汽车行业今天在推进的,则是另一种更硬的 AI:它要持续感知物理世界、在极短延迟里完成决策,并且为动作结果承担后果。
这也是为什么我越来越觉得,今天真正值得技术人认真理解的,不只是“车企也开始讲大模型”这件事,而是:
汽车正在成为当前最成熟、规模最大、工程约束最严苛的具身智能试验场。
如果只想先抓重点,可以先看这张表:
| 容易误解的点 | 更接近真实情况的理解 |
|---|---|
| 智驾就是“车里装了个 ChatGPT” | 智驾更像一套多层 AI 实时协同系统 |
| 具身智能主要看机器人 | 今天最成熟的大规模具身平台其实是汽车 |
700 TOPS 约等于“两张 4090 上车” | 车端芯片、家用显卡、云端训练集群根本不是同一岗位 |
| 大家都在讲 AI,所以路线差不多 | Tesla、小米、小鹏、华为、理想、比亚迪已经明显分路 |
一、为什么汽车比机器人更像今天的具身智能主战场
很多人一听“具身智能”,脑子里最先出现的是人形机器人。
这个直觉没错,但如果我们把问题换成:
谁已经在真实世界里大规模部署了带传感器、执行器、实时反馈和持续数据回流的 AI 系统?
那汽车就很难被绕开。
原因很简单。一辆现代智驾车天然就具备具身智能最关键的四个组成部分:
- 有输入:摄像头、雷达、超声波、导航、定位等多源传感器
- 有执行:方向盘、刹车、油门、转向、泊车等动作接口
- 有实时闭环:道路环境每一秒都在变化
- 有大规模部署:不是实验室原型,而是真正在卖、在跑、在 OTA
把机器人和汽车放到同一张表里看,会更清楚:
| 维度 | 机器人 | 智驾汽车 |
|---|---|---|
| 现实部署规模 | 还在加速早期扩张 | 已经形成大规模车队 |
| 数据回流密度 | 仍在积累阶段 | 道路数据持续回流 |
| 传感器和执行器成熟度 | 高度异构,成本较高 | 已形成成熟供应链 |
| 商业化状态 | 更多是高预期赛道 | 已经是消费级和产业级产品 |
| 为什么值得技术人优先关注 | 代表长期方向 | 代表今天已经落地的具身系统 |
所以汽车并不是“未来某一天可能会成为具身智能平台”。
更准确的说法是:
汽车已经是今天最成熟、最昂贵、最持续在线的现实世界 AI 系统之一。
这也是为什么最近车企的发布会,会越来越像一场 AI 系统架构发布会,而不只是传统汽车发布会。
二、智驾不是一个大模型,而是 5 层 AI 架构的接力系统
很多 AI 从业者第一次看汽车智驾,很容易套用自己熟悉的心智模型:
“所以车上是不是也有一个类似 GPT-4 的超级大脑,只不过它除了能聊天,还能开车?”
这个理解很自然,但偏差很大。
今天主流智驾系统通常不是“一个超级模型统治一切”,而是多层模型和算法在不同时间尺度上持续协同。粗略拆开看,至少可以理解成下面 5 层:
| 层级 | 主要任务 | 输入 | 输出 | 更像什么 |
|---|---|---|---|---|
| 感知 AI | 识别道路、车辆、行人、障碍物 | 多路传感器数据 | 场景理解结果 | 实时视觉理解系统 |
| 预测 AI | 估计交通参与者接下来怎么动 | 感知结果 + 历史轨迹 | 未来轨迹分布 | 短时物理世界预测器 |
| 规划 AI | 决定当前怎么开 | 感知 + 预测 + 地图/导航 | 行为与路径决策 | 驾驶策略层 |
| 控制 AI | 把决策变成真实动作 | 规划结果 + 车身状态 | 转向/制动/加速控制信号 | 低延迟执行器 |
| 交互 AI | 负责座舱和自然语言体验 | 用户语音/座舱上下文 | 对话、指令理解、交互结果 | 最像普通人理解里的大模型 |
如果换成工程视角,它更像下面这个链条:
Sensors
-> Perception
-> Prediction
-> Planning
-> Control
-> Vehicle Action
而“语音助手”“一句话泊车”“座舱助手”这一类最像大模型的能力,很多时候其实主要落在交互层。
这也是为什么很多普通用户会误以为“智驾 = 车里装了个聊天模型”。
因为交互层最容易被感知、最容易被演示、也最像过去两年大家熟悉的 AI 产品形态。
但真正决定一辆车能不能稳定跑起来的,核心不在交互层,而在前四层能不能在极短时间窗口里连续做对。
1. 感知层解决的是“看见什么”
这一层的核心任务不是“理解世界的意义”,而是先把道路世界正确拆出来:
- 车道线在哪里
- 前车是谁
- 旁边有没有非机动车
- 路边是不是行人
- 这个障碍物到底是静态锥桶还是动态目标
从工程角度看,这一层更接近实时视觉理解系统,而不是聊天模型。
2. 预测层解决的是“别人下一秒会怎么动”
看见前车不算难,难的是预测它几秒后会不会突然并线、减速或者加塞。
这层 AI 干的是一种很窄但极难的任务:
在有限时域内做物理轨迹预测。
它不像通用大模型那样追求开放式知识推理,但它要在小窗口里稳定预判真实世界的动作风险。
3. 规划层解决的是“现在该怎么办”
规划层更像整套系统的策略中枢。
它要根据当前理解和未来预测,决定此刻最合理的动作组合:
- 跟车
- 让行
- 变道
- 超车
- 减速
- 刹停
最近车企频繁提到的 世界模型、VLA、端到端,很多都和这一层的演进有关。
4. 控制层解决的是“把决策精确变成动作”
这层通常最不性感,但往往最关键。
规划说“该往左轻打一点方向”,控制层要回答的是:
- 左打多少角度
- 持续多久
- 制动力度要多大
- 在当前轮胎、路面和车速条件下怎么做才最稳
这也是为什么汽车 AI 不只是“模型够大就行”,它还深度依赖传统控制理论、实时系统工程和安全验证。
5. 交互层才是最像 ChatGPT 的那一层
如果说哪一层最像大家熟悉的大模型,那确实是交互层。
比如:
- 语音控车
- 自然语言目的地设置
- 座舱问答
- 一句话泊车或一句话完成某类车控动作
但问题也恰恰在这里:
最像 ChatGPT 的那一层,不等于整套智驾系统。
所以当车企讲“大模型上车”时,技术人最好先问一句:
它是在说交互层,还是在说整个驾驶系统的感知、预测、规划和控制能力都被重构了?
三、为什么 700 TOPS 不能直接翻译成“两张 RTX 4090”
这是汽车 AI 里另一个高频误解。
很多人一看到车企公布 700 TOPS,会本能地拿它和自己熟悉的 RTX 4090、H100 甚至本地跑模型的体验对比。
但问题是,这几类算力本来就不在同一张岗位说明书里。
先看一张对比表:
| 类型 | 主要任务 | 关注指标 | 典型工作环境 | 不能简单类比成什么 |
|---|---|---|---|---|
| 云端训练算力 | 训练大模型、回灌海量数据、持续迭代 | 总吞吐、训练规模、集群效率 | 数据中心 | 不是车上实时推理电脑 |
| 车端芯片 | 低延迟推理、多路传感器接入、实时执行 | 稳定性、功耗、温度、延迟 | 高温、振动、断网也要能跑 | 不是家用显卡换壳 |
| 家用显卡 | 本地推理、开发、文生图、个人实验 | 显存带宽、推理速度、成本 | 桌面机/工作站 | 不是车规级实时系统 |
更准确的理解方式应该是:
训练在云端,干活在车端。
也就是说,车企会在云端用大规模算力把模型练出来,再把适合实时推理的能力压缩、部署到车上。
这和我们平时用 ChatGPT 或本地跑 7B/32B/70B 模型,是完全不同的系统设计目标。
对于车端系统来说,关键不是“参数量大不大”,而是:
- 延迟够不够低
- 实时性够不够稳定
- 多传感器吞吐能不能扛住
- 极端温度和振动环境下是否可靠
- 安全验证是否足够严格
所以 700 TOPS 这个数字当然重要,但它不是一个可以脱离场景单独吹的参数。
如果硬要把它翻译成技术人的一句人话,那大概是:
这不是“把一张游戏显卡搬进车里”,而是在说车上有一套必须长期稳定运行的、低延迟的、车规级推理系统。
四、今天头部玩家讲的都是 AI,但路线已经明显分化
如果把视野拉到行业层面,会发现“大家都在讲 AI”并不意味着“大家在做同一种事”。
当前更值得看的,其实是各家在押注哪条能力链条。
| 玩家 | 更像在押注什么 | 路线关键词 |
|---|---|---|
| Tesla | 现实世界数据飞轮 + 纯视觉神经网络 | FSD、纯视觉、车队数据闭环 |
| 小米 | 把基础模型叙事往汽车和具身系统迁移 | MiMo、MiMo-Embodied、VLA |
| 小鹏 | 云端世界基座模型 + 端云协同 | 72B、世界模型、端云协同 |
| 华为 | 系统工程与端到端整合能力 | ADS、端到端、难例强化 |
| 理想 | 驾驶系统和座舱 Agent 的衔接 | 驾驶/座舱协同、自然语言体验 |
| 比亚迪 | 把智驾能力跑成规模化普及能力 | 大车队、普及路线、数据回流 |
如果把这些路线进一步抽象一下,会看到至少三种不同的系统哲学:
1. 押数据飞轮
代表思路是 Tesla 这一派。
核心判断是:现实世界里的长尾驾驶能力,最后要靠海量真实数据回流和持续 OTA 打磨出来。
2. 押大模型和新架构迁移
小米、小鹏更接近这条路线。
它们更积极地把最近两年 AI 领域里的 VLA、世界模型、大基座模型叙事往汽车迁移,希望把汽车理解成现实世界的模型执行端。
3. 押系统工程和整合能力
华为、理想、比亚迪则更让人看到另一种现实:
当一个系统真的要落到真实车辆和真实用户手里时,工程集成、稳定性、供应链和规模化部署能力,有时候比单点模型叙事更重要。
这也意味着,汽车 AI 的竞争不是单纯比谁的论文更新、参数更大,而是比谁能更早把下面这条链条闭环:
真实世界数据
-> 大规模训练
-> 车端实时推理
-> 安全验证
-> OTA 回流
-> 再训练
五、这件事对技术人真正重要的地方,不是“车企也在蹭 AI”
很多技术人看到车企开始密集讲 Agent 风格词汇、讲模型、讲算力,第一反应是:
“是不是又一轮 PPT AI?”
这种警惕当然合理,但如果只停在这一步,其实容易错过更关键的变化。
因为汽车行业现在推进的,并不是简单把“会聊天的大模型”塞进车里,而是在逼整个 AI 行业面对一个更硬的问题:
当模型进入物理世界之后,怎么在感知、预测、规划、控制和安全约束里长期稳定工作?
这和我们熟悉的很多软件系统问题并不一样。
在数字世界里,模型出错往往还可以:
- 重试
- 回滚
- 等用户二次确认
- 延迟几秒再给结果
但在道路上,错误通常没有这么宽松的恢复机制。
所以汽车行业的重要性,不只在于它是一个热门赛道,而在于它把 AI 推向了一个更残酷的验证环境:
- 不是只比“会不会生成”
- 而是比“能不能持续行动”
- 不是只比“看起来聪不聪明”
- 而是比“系统能不能长时间不犯致命错误”
从这个角度看,汽车其实正在帮整个 AI 行业提前暴露一个未来共性问题:
当 AI 从聊天框走向现实世界之后,系统设计的核心会从“表达能力”转向“行动可靠性”。
六、结语:下一代 AI 的重心,可能先从方向盘开始变化
如果回看过去三年,AI 最耀眼的主战场还是数字世界:
- 会聊天
- 会写代码
- 会生成图像和视频
- 会搜索和调用工具
但接下来的竞争,很可能不只是“谁更会生成”,而是:
谁更能在物理世界里稳定感知、持续决策并承担后果。
汽车未必是具身智能的终局,但它几乎一定是今天最硬核、最现实、也最有规模的试金石。
它把 AI 里很多原本可以模糊处理的概念,都压缩成了非常具体的工程问题:
- 感知是否准确
- 预测是否稳定
- 规划是否合理
- 控制是否可靠
- 推理是否足够低延迟
- 整个系统是否能在现实世界里长期承担后果
如果你过去一直把 AI 理解成“会聊天的大模型”,那现在也许真的该把视角从聊天框往外移一点了。
因为下一阶段最重要的 AI 竞争,未必先改变的是你和模型对话的窗口。
它很可能先改变的是:
方向盘、道路,以及 AI 在现实世界里的行动能力。