CVPR 史上首次!中国车厂主讲 AI 大模型,自动驾驶也玩 Scaling Law?

213 阅读13分钟

【新智元导读】不去今年的 CVPR 不知道,原来中国自动驾驶在 AI 领域的创新已经这么牛了。作为今年唯一受邀参与 CVPR 演讲的车企,这家公司在 AI 顶流圈层上桌吃饭了!

刚刚,世界计算机三大顶会之一——CVPR 2025 正式落幕。

每年,CVPR 吸引了来自世界各地研究者、行业领袖齐聚一堂,分享前沿成果。

展厅里,最新算法模型、3D 重建、自动驾驶、生成式视觉等技术的 demo 令人目不暇接,Poster 区更是人头攒动。

各种 Keynote 演讲座无虚席,激发学者无数灵感。

在这场学术与科技热潮中,一个专注于未来出行和自动驾驶的专题研讨会格外引人关注——CVPR Workshop on Autonomous Driving(WAD)

自 AI 大模型浪潮出现以来,自动驾驶领域的技术范式发生了很大转变——从以前由人类编写规则的模型,变成了依靠大量数据进行训练的 AI 模型。相关的技术发展也成了这几年 CVPR 会议上的热门话题。

一直以来,CVPRWAD 的参与者和讲演者都是在自动驾驶业界创造里程碑式贡献的领军人物,比如大家熟知的 Andrej Karpathy(前特斯拉 AI 和自动驾驶部门负责人、OpenAI 创始成员),Ashok Elluswamy(特斯拉自动驾驶负责人)等等。

这届 WAD 研讨会也不例外,官方邀请了一众大咖来发表演讲,不光有 Waymo、英伟达,还包括来自 CMU、港大、UC 伯克利等机构的学术研究者。

传送门:cvpr2025.wad.vision/

令人瞩目的是,一家中国车企也上桌了。

在 WAD 上,受到 CVPR 直邀的小鹏汽车世界基座模型负责人刘先明发表了题为《通过大规模基础模型实现自动驾驶的规模化》(Scaling up Autonomous Driving via Large Foudation Models)的演讲。

内容涵盖小鹏自研的业界首个超大规模自动驾驶基座模型的历程和方法,在模型预训练、强化学习、模型车端部署、AI 和数据基础设施搭建方面的前沿探索等,为同行带去了工业领域最重磅的实践经验。

值得一提的是,小鹏是本届大会上唯一一个大型量产车公司嘉宾,而这也是小鹏继 2023 年之后又一次在 CVPR 分享自动驾驶前沿成果。

正当学者们在大洋彼岸的 CVPR WAD 现场进行思维碰撞时,中国的消费者也在同一天见证了搭载「L3 级算力平台」的最新 AI 汽车——小鹏 G7 的亮相。

相比于传统燃油车的电子化和上一代电车中的算力水平,小鹏给出了自己的「L3 级算力平台」标准:

  • 有效算力大于 2000 TOPS:堪称汽车里自带一个「移动超算」,作为对比,苹果 16 Pro Max 搭载的最新 A18 Pro 的算力为 45 TOPS,小鹏 G7 是其 40 多倍;

  • 搭载本地部署的「VLA+VLM 模型」:视觉与语言深度融合,本地化部署无延时,响应更快,无需担忧网络,面对极端路况更有底气。

这样强大的算力,让小鹏自动驾驶的 AI 能力更上了一个新台阶。

大家猜猜,下面这些车用了多少行规则代码开成这样?

变道超车

连续变道超车

提前变道,避让施工区;继续通行,遇到从小路汇入主路的大货车,减速应对

直行道上,前方大车切出后,看到临停车,变道绕行;遇到突然横穿马路的电动摩托车,成功避让;左侧忽然有一辆大货车加塞,减速灵活应对

雨天,无保护左转,路况复杂,汽车、二轮车混行,成功避让

答案是——0。

可以看到,在没有任何规则代码托底的情况下,小鹏最新的自动驾驶基座模型已展现出令人惊喜的基础驾车技能,比如丝滑地加减速、变道绕行、转弯掉头、等待红绿灯。

今天的自动驾驶,难点在哪

这些令人惊艳的案例背后,是小鹏团队对于自动驾驶 AI 的多年艰难攻关。

要理解这个过程,首先我们需要明白的一个问题,就是如今自动驾驶的难点在哪里。

虽然规则时代的自动驾驶模型,也能解决大部分常见的驾驶问题,但无法处理那些罕见的、复杂的、事关安全的长尾问题,也即 corner case。而不解决 corner case,就不可能走向真正的 L3、L4。

也就是说,自动驾驶真正的核心难点,在于处理那些罕见的、复杂的、事关安全的长尾问题。

因为这些问题发生概率极低,就很难有足够数据让模型学习。

那么,是否有可能让模型能像人类一样,基于常识和经验处理长尾问题呢?毕竟,人类学车也并不是遍历所有区域、所有场景。

此时的破局点,就在于让自动驾驶模型从只会模仿学习,做到长出一个「大脑」,处理从未在训练数据中见过的场景。

怎么办?小鹏汽车根据多年经验,决定进行一个大胆的实验——在云端训出一个会思考的超级大脑!

神奇的事情发生了:云上大模型开始「涌现」。

据刘先明介绍,研发团队训练了从 10 亿到 720 亿等不同尺寸的模型,持续向模型「投喂」更大规模的训练数据,他们清晰地看到了 Scaling Law 的显现,也就是说,模型参数越大、模型学习的数据越多,模型的性能越强。

这是大模型浪潮以来,行业内首次明确验证规模法则(Scaling Law)在自动驾驶 VLA 模型上持续生效。

接下来,我们把小鹏 720 亿参数的基座模型打开看看,这个「AI 大脑」里有什么。

它跟传统的「小脑」型自动驾驶模型最大的不同,就在于具备思维链推理的能力(CoT)。

由此,模型仿佛具备开车能力和思考能力的「大脑」,能让汽车像人类一样主动思考和理解世界,处理训练数据中从未见过的长尾场景,而非机械执行程序员写好的规则。

这种由过去纯粹只懂开车、不懂思考的「小脑」到「大脑」的飞跃,是自动驾驶技术的质变。

从此,汽车有望完成从 L2 辅助驾驶到 L4 自动驾驶的纵向技术迭代,最终抵达真正的无人驾驶!

小鹏汽车的 VLA 大模型以大语言模型为骨干网络,用了海量优质的自动驾驶数据训练而成,具备视觉理解能力、链式推理能力和动作生成能力。

本身的强大性能加上后训练阶段的 RL,让它获得了高度类人的 CoT,即使在极为复杂、危险或罕见的场景,都能进行清晰的逻辑推理——

「我面临的环境是什么样的?眼前有哪些影响我开车的关键对象?现在交通信号灯让不让走?我应该怎么操作既安全、又合规,最好还能比较有效率?想好了,我现在输出一条轨迹……」

在这个过程中,小鹏持续「投喂」了更大规模的训练数据。目前,基座模型累计吃下了 2000 多万条视频片段(每条时长 30 秒)。团队也清晰地看到了 Scaling Law 的显现!

L2 无法进化到 L4,突破口在哪里?

正如上文所述,此前很多人认为,L2 无法进化到 L4,就是因为当时的自动驾驶模型只会「模仿学习」,处理训练数据中见过的场景。

小鹏的解法,就是用强化学习,做出高度拟人的「AI 大脑」。

但这过程中,就又遇到了一个难题:由于车端算力限制,最终能够部署上车的模型参数都很小,目前业界常见的车端模型参数只在几百万到十亿级别。

这样,Scaling Law 根本就无从发挥,更无法实现强大 CoT。

为此,小鹏早在去年,就独具慧眼地确定了云端基模技术路线——在云端「不计成本」地训练超大规模基座模型,再通过蒸馏,帮模型跳出车端算力的「一亩三分地」。

刘先明介绍说,「云端基座模型 + 强化学习的组合,是让模型性能突破天际的最好方法」。

前者,就好比人的智商,而后者,就好比能力激化器。

巧的是,开车也正是个非常适用强化学习的领域。

小鹏为此开发了自己的强化学习奖励模型,在完成预训练、SFT 之后,就会进入 RL 阶段,从安全、效率、合规三个方向上激发基模潜能。

如今,小鹏已经有几十万辆辅助驾驶车辆跑在全国各地,源源不断创造着新训练数据,包括大量长尾场景。

而小鹏的车主们,也不断为 AI 辅助驾驶的智能所惊叹。

比如,前不久一位福州用户开到了红绿灯路口,发现对面主干道有两棵大树,居然需要从两棵树的缝隙之间穿越而过,这复杂的路况让人类司机都会愣上一阵。

这个典型的 CoT 场景,就需要模型做出大量实时推理:「我在哪?发生了什么?我要怎么走?」

令人惊喜的是,小鹏智能辅助驾驶系统居然顺利地一把过了!

视频详情

而这,仅仅是一个开始。

目前,小鹏汽车自动驾驶团队已经开始自研「世界模型」(World Model)了。

作为实时建模和反馈系统,它基于动作信号模拟真实环境状态,渲染场景,生成场景内其他智能体(交通参与者)的响应,构建出闭环反馈网络。

这一系统,将助力基座模型的强化学习训练,显著提升模型在复杂场景中的决策能力。

一流 AI 公司,成就一流自动驾驶公司

过去,全球自动驾驶的核心叙事者一直是 Waymo、特斯拉。

但小鹏 CVPR 的演讲证明,中国车企正在用 AI 重新定义游戏规则。

正如刘先明所言,「大模型时代,想做一流的自动驾驶公司,首先必须成为一流的 AI 公司」。

为了研发下一代自动驾驶基座模型,小鹏汽车从 2024 年开始布局,建成国内汽车行业首个万卡智算集群,算力高达 10 EFLOPS,集群运行效率常年保持在 90% 以上,模型全链路迭代周期平均仅 5 天。

如此算力规模和运营效率,足以媲美全球头部 AI 企业。

这套云到端的生产流程,被命名为「云端模型工厂」,支持基座模型预训练、后训练、模型蒸馏,以及车端模型训练等全流程任务。

与 LLM 不同的是,自动驾驶基座模型的研发面临更大的复杂性和挑战。

自动驾驶模型需要融合摄像头、导航信息等多模态数据,形成对物理世界的精准认知,并在动态驾驶场景中完成推理、决策和控车操作。

它的训练需要从头验证所有技术问题,包括 Scaling Law。

相较于大模型行业的「卷模型、卷技术」,汽车行业的 AI 化仍是少数派。特斯拉是这一赛道的先行者,其 FSD 系统背后强大的 AI 模型和基础设施令人叹服。

而小鹏汽车正以同样的决心,加速追赶并试图超越。

在 CVPR 上,小鹏首次披露了两项核心数据:

  • 数据处理能力:小鹏云上基模训练过程中,累计处理超 40 万小时的视频数据

  • 流式多处理器的利用率(streaming multiprocessor utilization)达到 85%。

这些数字背后,是小鹏比照全球领先 AI 公司标准,从 0 搭建的数据和 AI 基础设施。

刘先明从两个层面——云端模型训练和车端模型部署,拆解了小鹏自动驾驶团队提升模型训练效率的方法。

云端模型训练

和 AI 圈熟知的大语言模型(LLM)的训练不同,自动驾驶 VLM 和 VLA 的训练,不仅受限于计算瓶颈,还面临数据加载和通信瓶颈。

小鹏团队通过联合优化 CPU、GPU 和容错性,攻克了大规模并行训练的难题。

针对数据加载问题,研发团队对 CPU 的利用作了如下优化:

  • 启用额外的 CPU 节点,以提升 GPU 节点的数据加载能力;

  • 对 PyTorch 进行定制化改造,降低进程间通信开销;

  • 采用激进的数据物化策略,进一步减轻 CPU 在数据加载上的负载;

  • 优化打乱(shuffling)模式,在速度与随机性之间取得平衡。

针对 GPU 计算资源的利用,优化策略如下:

  • 使用 FSDP 2 实现模型分片

  • 使用 FP8 混合精度训练

  • 利用 Flash Attention 3 加快计算速度

  • 自定义 Triton 内核

这些优化,让小鹏的「云端模型工厂」在处理海量多模态数据时,实现了极高的效率和稳定性。

车端模型部署

团队自研的图灵 AI 芯片,为车端模型部署提供了得天独厚的优势。

这款专为大模型设计的芯片,单颗算力就已经远超 Orin-X,三颗更是超过了 2200 TOPS,未来可以支持 L3 + 级别的智驾体验。

据悉,小鹏汽车的模型、编译器、芯片团队长期联合研发,针对下一代模型开展定制化工作。

比如,定制 AI 编译器以最大化执行效率,协同设计硬件友好、量化友好的模型架构,确保软硬件充分耦合,目标就是「榨干」车端芯片的算力。

以配备 7 个摄像头 VLA 模型为例,每 2 秒视频输入会产生超 5000 个 token,导致巨大的计算压力。

为此,他们还设计了针对 VLA 模型的 token 压缩方法,将 token 处理量压缩 70%(从 5000 压缩至 1500)。

这种软硬协同的极致优化,让小鹏在车端算力有限的场景下,依然实现了高性能智驾。

从 CVPR 的舞台到全球市场的布局,小鹏汽车以 AI 为核心,重新定义了自动驾驶的未来。

其端到端大模型、强化学习和数据驱动的开发模式,不仅让中国车企在全球 AI 智驾领域占据一席之地,更向世界证明了 AI 创新的无限可能。

在这条自动驾驶赛道上,小鹏正加速驶向改变世界的未来。

参考资料:

cvpr2025.wad.vision/