李想的“CEO大模型”:VLA架构、组织能量与AGI终端的“苹果”之路
引言
这是对理想汽车CEO李想的深度访谈笔记。在近三小时的对话中,李想系统性地阐述了理想汽车从“智能终端”向“人工智能终端”转型的战略蓝图。本文不仅详细解构了理想最新的VLA(Vision-Language-Action)“司机大模型”的技术架构,还深入探讨了他对AI工具演进、组织管理(特别是“能量场”理论)以及未来AGI(通用人工智能)时代终端形态的思考。李想明确提出,理想汽车的目标是成为AGI时代的“苹果”,一个全球领先的人工智能终端企业,并论证了为何在物理世界中,终端企业的价值将超越平台企业。
目录索引
- AI工具三阶:从信息、辅助到生产
- DeepSeek的启示:人类最佳实践
- 开源的反哺:因DeepSeek而开源的OS
- VLA(视觉-语言-行动):“司机大模型”
- VLA的训练:从驾校到社会
- 世界模型与超级对齐
- “安卓时刻”:AGI时代的终端之战
- AGI终端三要素:软件、硬件与服务
- 战略支点:规模、用户、技术、组织
- 组织的“能量场”:对抗内耗
- 个人成长:智慧、能量与亲密关系
1. AI工具三阶:从信息、辅助到生产
章节摘要
李想将AI工具划分为三个层级:信息工具、辅助工具和生产工具。他认为,当前绝大多数AI应用(如Chatbot)仍停留在信息工具层面,尚未成为真正的生产工具,因为它们没有减少人类的工作时长或实质性改善工作成果。
关键论点:生产工具的缺失
- 信息工具 (Information Tool): 如联网搜索的AI对话,提供参考,但用户不愿为其付费。其信息源(如RAG索引)的准确性存疑,可能导致“熵增”。
- 辅助工具 (Auxiliary Tool): 如辅助驾驶、智能语音助手。提升了现有产品的体验和效率,但仍离不开人的操作。
- 生产工具 (Production Tool): 真正爆发的时刻。其核心评判标准是:是否真的能替代人去完成专业工作,是否在产生有效的生产力。
- 现状: 李想认为,目前几乎没有AI产品达到生产工具的标准。他听到的两个接近的初级案例是
Cursor(编程)和OpenAI的Deep Research(商业分析),共同点是员工“自掏腰包”付费使用。
深入解读:“知行合一”是关键
李想指出,AI从信息工具迈向生产工具的鸿沟在于Action(行动) ,即“知行合一”。目前的模型大多停留在“知”的层面,提供策略和推演,但无法真正去“行”(如操作电脑软件或控制物理机器)。生产工具必须具备行动能力,才能真正介入并替代人类的核心工作流。
2. DeepSeek的启示:人类最佳实践
章节摘要
李想高度评价了DeepSeek,认为其成功源于对“人类最佳实践” (Human Best Practices) 的极致运用。他从DeepSeek V3(模型能力)和R1(业务推理)两个层面,拆解了构建能力和执行业务的极简步骤。
关键论点:DeepSeek的两个最佳实践
-
构建能力 (DeepSeek V3 - MoE模型):
- 第一步:搞研究 (Research)。
- 第二步:搞研发 (R&D)。
- 第三步:能力表达 (Capability Expression),如端到端的轨迹展示。
- 第四步:变成业务价值 (Business Value)。
-
执行业务 (DeepSeek R1 - Reasoning模型):
- 第一步:索引分析 (Index Analysis),分析用户需求。
- 第二步:确定目标 (Define Goal),将用户提示转化为清晰目标。
- 第三步:出策略与执行 (Strategy & Execution)。
- 第四步:反思与复盘 (Reflection & Feedback)。
深入解读:对抗人性
李想认为,组织和个人在实践中最大的问题就是遗忘最佳实践。例如,在构建能力时,跳过“研究”直奔“研发”;在执行业务时,遇到问题只想“改策略”,而不做“复盘”和“分析”。
严格遵循最佳实践是反人性的 (Anti-human nature),因为随心所欲才是满足人性的。因此,一个卓越的组织和个人,必须有能力对抗这种人性,坚守纪律和方法论。
3. 开源的反哺:因DeepSeek而开源的OS
章节摘要
DeepSeek的开源对理想汽车产生了巨大帮助。李想坦言,DeepSeek的语言模型帮助理想的VLA项目缩短了约9个月的研发时间,节省了数亿成本。出于“感谢”和回馈,理想汽车决定将其自研的操作系统 (Li Auto OS) 开源。
关键论点:拥抱开源与加大自研
-
拥抱开源: 春节期间,李想和谢言(理想CTO)决定,理想VLA的“L”(Language)部分应站在DeepSeek的肩膀上开发,而非从零开始,这一决策得到了模型团队负责人陈伟的坚决支持。
-
为何仍需自研基座: 理想的业务(如自动驾驶)需要开源模型没有的、高度专业化的数据。
- 3D Vision 和高清2D Vision的Token。
- 交通和家庭用户的专业语义语料。
- VL联合语料 (VL-combined data) :即图像和语义同时产生的数据(例如:看到导航地图后,人类司机的判断和车辆记录)。
-
加大投入: 理想汽车2025年购买的训练卡比原计划多买了3倍。
-
模型规划: 正在训练两个版本:一个约300B (3000亿) 的模型用于理想同学(多模态),一个32B (320亿) 的模型用于自动驾驶VLA的Vision部分。
深入解读:开源时代的“竞合”
理想的案例展示了AI时代一种新的竞合模式。基础能力(如通用语言理解)可以通过开源社区快速获取,使企业能集中资源攻克自身业务场景下的核心难题(如3D视觉与行动的结合)。这并非战略投机,而是对研发资源的重新配置。理想开源OS,也不是战略考量,而是一种“能量”的回流,是对开源精神的致敬。
4. VLA(视觉-语言-行动):“司机大模型”
章节摘要
李想将智能驾驶的发展划分为三个阶段,认为行业正处于“黎明前的黑暗”。理想汽车的VLA架构,即“司机大模型” (Driver Large Model),是其迈向“人类智能”阶段的核心技术路线。
关键论点:智能驾驶的三代演进
-
第一阶段 (规则算法):
- 类比:昆虫智能 (Insect Intelligence) ,如蚂蚁。
- 特点:依赖既定规则和高精地图,模型参数仅百万级,无法理解复杂世界。
-
第二阶段 (端到端 E2E + VRM):
- 类比:哺乳动物智能 (Mammal Intelligence) ,如马戏团动物。
- 特点:模仿人类行为(如学习如何开车),能处理泛化场景,但不理解物理世界。
-
第三阶段 (VLA):
- 类比:人类智能 (Human Intelligence) 。
- 特点:像人一样用3D/2D视觉理解物理世界,能看懂导航等软件,具备理解、推理和行动的能力。
深入解读:VLA的价值
VLA的核心价值在于从“模式匹配”转向了“世界理解”。
- E2E (端到端) 解决的是“看到什么就做什么”的反应问题。
- VLA 解决的是“理解发生了什么,应该做什么”的认知问题。例如,E2E面对复杂修路场景可能会停下,而VLA能理解情况并绕行。同时,VLA(配合Agent)使人车自然语言交互成为可能(如“在这条路中间车道行驶”)。
5. VLA的训练:从驾校到社会
章节摘要
李想详细披露了VLA“司机大模型”的四步训练流程,这一流程高度模拟了人类学习开车的全过程:先学习知识,再去驾校,最后上路(社会)实践。
关键论点:VLA四步训练法
-
预训练 (Pre-training) - 学习知识:
- 目标:训练一个32B的云端VL基座模型。
- 数据:包含3D Vision、高清2D Vision、交通Language,以及关键的VL联合语料。
-
蒸馏 (Distillation) - 适配车辆:
- 目标:将32B云端模型蒸馏为3.2B的端侧(On-device)模型。
- 架构:采用MoE(8个专家) 架构,以在车规级芯片 (如OrinX) 上实现足够高的运行帧率。
-
后训练 (Post-training) - 驾校学习:
- 目标:加入Action,变为VA,进行模仿学习。
- 规模:模型扩大至约4B。
- 特点:采用短CoT(2-3步)以保证低延迟,并配合4-8秒的Diffusion轨迹和环境预测。
-
强化 (Reinforcement) - 社会驾驶:
-
RLHF (带人类反馈): 安全对齐。学习人类的驾驶习惯、偏好和安全接管数据,使其“像人一样”融入社会交通。
-
RL (纯强化学习): 超越人类。使用“世界模型”生成的数据进行训练,优化目标清晰:
- 舒适性 (G值)。
- 碰撞 (零碰撞)。
- 交通规则 (零违规)。
-
深入解读:E2E并未被抛弃
VLA架构并非完全抛弃了端到端。相反,过去的端到端模型成为了VLA中“A”(Action)的部分,即执行环节。这是一个进化的过程,不能跳过(“不能直接摘第十个包子”)。理想之所以能快速推进,得益于其深厚的技术积累,包括自研的操作系统和编译器团队(例如,为OrinX芯片编写底层软件以支持INT4推理)。
6. 世界模型与超级对齐
章节摘要
为了支撑VLA的训练和验证,理想构建了“交通世界模型”;为了确保VLA的安全和类人性,成立了“超级对齐”团队。
关键论点:世界模型与对齐
-
世界模型 (World Model): 李想的定义是一个仿真的交通物理世界。
- (注:这与机器人领域将“未来预测”称为世界模型不同;李想将未来预测归为VLA司机能力的一部分)。
- 功能1:考试。验证VLA。
- 功能2:生成RL训练数据。
- 功能3:未来L4运营系统。
- 成果:1万公里验证成本从18万人民币(人力路测)降至4000元(算力成本)。
-
超级对齐 (Super-alignment):
- 团队规模:100多人。
- 类比:模型能力 = 专业能力;超级对齐 = 职业性 (Professionalism) 。
- 目标:解决模型“价值观”问题。例如,模型能力强,但不遵守交通规则,或频繁加塞,导致体验不舒适、不安全。对齐就是注入人类司机的职业素养。
深入解读:AGI时代的“职业道德”
李想将“对齐”问题从一个抽象的AI安全问题,转变为一个具象的“职业性”问题。一个模型能力再强,如果“职业性”差(如开车鲁莽),就不是一个好的“司机Agent”。这套“能力-职业性-信任”三元评估体系,既是评价AI的标准,也是评价员工的标准。
7. “安卓时刻”:AGI时代的终端之战
章节摘要
李想正式将理想汽车2030年的愿景,更新为**“全球领先的人工智能终端企业”** (Global leading AI Terminal company)。他认为AGI时代将重演PC和移动互联网时代的“平台 vs 终端”之战,而理想汽车选择的是“终端”路径。
关键论点:平台 vs 终端
- PC时代: 微软 (平台) 赢了 苹果 (终端)。
- 移动时代: 谷歌 (平台) 与 苹果 (终端) 打平。
- AGI时代 (物理世界): 李想预测,终端企业将战胜平台企业。
- 原因: 物理世界的AI(如自动驾驶、机器人)涉及生命安全和财产安全。这种高风险场景需要极高的一致性,由一个主体(终端)来解决,远比平台和硬件分离的模式更可靠。
深入解读:理想的“苹果”梦
理想汽车的战略选择非常清晰:
- 类比:
DeepSeek就像Linux(提供了L的基础);理想汽车要做的是Android(针对汽车和交通领域的VLA)。 - 路径: 苹果从PC(Mac)拓展到MP3(iPod)再到手机(iPhone)。理想汽车以汽车为第一个AGI终端切入,未来可能拓展到家庭、工作、穿戴等其他符合AGI特征的终端。
- AGI终端四特征: 1) 360°物理世界感知;2) 认知决策能力;3) Action(行动)能力;4) 反思反馈能力。
8. AGI终端三要素:软件、硬件与服务
章节摘要
李想进一步拆解了构成一个AGI终端所必需的三层能力:软件、硬件和服务,并解释了理想汽车在这些领域的布局。
关键论点:AGI终端的构成
-
软件 (Software):
- 模型能力: 理解物理和数字世界(如VLA)。
- 操作系统: 实时OS (RTOS),确保物理世界执行的准确性。
- 工具: 高效的确定性工具(如用规则算法解决ETC问题,而非强上模型)。
-
硬件 (Hardware):
- 本体: 硬件架构(如中央+分布式计算单元)
- NPU: 端侧算力。李想认为这是核心,端侧NPU的10倍性能差距(如跑3B vs 30B模型)是决定性的。
- 制造: “用AGI生产AGI终端” 。未来工厂本身就是一个机器人,目标是提升生产效率,而非简单替代工人。
-
服务 (Service):
- AGI运营: 如何运营海量的物理世界机器人(如NVIDIA Cosmos)。
- 人机连接: 解决“一个人带领多个Agent”的协同工作问题(即Agent OS)。
深入解读:Agent OS的定位
李想认为5年内不会有通用的Agent,但会有Agent OS。对于理想汽车,其对外的Agent OS就是“司机大模型”;对内,则是提供平台让客服、销售、研发等专业团队,在上面构建自己的专业Agent。
9. 战略支点:规模、用户、技术、组织
章节摘要
在讨论战略时,李想提出了他的核心诊断模型:以“规模”为中心,观察“用户需求”、“技术产品”和“组织能力”三个动态变量。
关键论点:理想的战略演进
-
中心: 规模 (Scale) 。规模是确定性的锚点。
-
变量1:用户需求。
- 现状:主力是SUV。
- 变化:要做到更大规模(如3000-5000亿),必须覆盖更广用户群,因此需要面向全球的家庭轿车和MPV产品。
-
变量2:技术产品。
- 现状:智能终端(汽车)。
- 变化(3-6年):AGI终端(汽车+其他形态)。
-
变量3:组织能力。
- Phase 1 (理想ONE): 学习丰田、通用、谷歌 (OKR)。
- Phase 2 (L系列, 0到千亿): 学习华为 (IPD, 三支柱)。
- Phase 3 (千亿到万亿): 学习苹果。
深入解读:战略的纪律性
这个模型的核心是,组织变化必须跟上,但前提是“技术变化”和“用户需求变化”产生了结合,而不是因为单一技术热点而盲目调整组织。这解释了为什么理想汽车的组织变革相对稳健。
10. 组织的“能量场”:对抗内耗
章节摘要
在谈及组织管理时,李想引入了一个核心概念:“能量” (Energy)。他认为,决定团队是高效协同还是内耗的关键,在于是否存在“能量场”。
关键论点:能量与支撑
- 能量 vs 内耗: 人和人之间的“能量”始终存在时,争执、讨论、吵架就是一个**“更完善的大脑” (类比MoE)。当能量消失时,这些就变成了“内耗” (Internal Friction)**。
- 构建能量: 关键在于构建“支撑” (Support)。
- 支撑结构: 最佳的支撑结构是3-7人。这个小组能形成“更强大的大脑”(群策群力)和“更强大的心脏”(相互支撑,共同执行)。
- 连接本质: 1) 共同在意用户(价值观共识);2) 相互在意彼此(先对人,再做事)。
深入解读:“CEO大模型”的组织观
这是李想的组织管理“方法论”。他试图将自己创业(汽车之家、理想汽车)中无意识受益的“合伙人支撑模式”显性化、可复制化。他作为CEO,从过去的“超级产品经理”转向了“组织能量的构建者”,通过设计这种3-7人的支撑结构,在组织内部复制更小的、高能量的决策与执行单元,以此对抗大公司必然出现的官僚主义和内耗。
11. 个人成长:智慧、能量与亲密关系
章节摘要
访谈最后,李想分享了他的个人哲学。他认为AI时代,人类的核心价值在于发展“智慧”,而智慧的来源在于处理“关系”。
关键论点:智慧、成长与关系
-
智慧 (Wisdom): 智慧不是智力 (Intelligence)。智慧是“我们和万物的关系”。AI的发展(智力)应该把人类从繁琐工作中解放出来(如AI替代销售电话邀约),让人有时间去接触万物、处理关系,从而提升智慧。
-
成长 (Growth) vs 改变 (Change):
- “人是用来发挥的,不是用来改变的。”(从育儿中领悟)。
- 关注“成长”(如学会资本运作)而非试图“改变”自己的短板。接受自己的不足,因为不足往往是优势的另一面。
-
亲密关系 (Intimate Relationships):
- 这是能量的核心来源(包括家庭和核心工作同事)。
- 核心认知: “我需要他们,超过他们需要我。”
- 这种“被需要”的需求,是建立深度连接和主动付出(产生能量)的基础。
-
AI安全: 李想认为当前的Transformer架构是安全的,因为它没有自主意识,改变其输出必须通过人类“重新训练”,人类的“对齐”手段依然有效。
深入解读:李想的“熵减”哲学
李想的个人哲学与他的商业思考高度一致。AI处理复杂、高熵增的信息和计算;人类则应该专注于高价值、熵减的活动——即构建“关系”和提升“智慧”。他对AI持乐观态度,前提是人类必须同步提升自己的智慧水平,成为文明的领导者,而非仅仅是智力的比拼者。
洞见延伸:可行动的启示
- VLA的行业意义: 理想汽车公布的VLA架构(特别是32B预训练 + 3.2B MoE蒸馏 + RLHF/RL)为行业提供了从L2++迈向L3/L4的清晰技术范式。这可能迫使其他车企(特别是依赖规则算法的)加速转向端到端和VLA路线。
- 开源与自研的平衡: 理想的案例表明,AI时代的核心竞争力在于“数据和场景”。企业应积极拥抱开源模型(如DeepSeek)解决80%的通用问题,集中3倍以上的资源(算力、人才)解决20%的、独有的、与物理世界交互的核心问题(如VL联合数据)。
- AGI终端的赌注: 李想对“终端 > 平台”的判断(基于物理世界的安全责任)是一个重大战略赌注。如果成立,意味着车企(及未来的机器人公司)必须走软硬一体、全栈自研(含OS、模型、芯片设计)的“苹果”模式,单纯的“Tier 1”或“平台赋能”模式将面临挑战。
- “第十个包子”理论: 不存在技术捷径。VLA的实现必须建立在扎实的E2E和VRM能力之上。这提醒行业,在追逐新技术(如VLA)时,不能忽视基础能力(如规则算法、E2E)的积累。
- AGI时代的组织管理: “能量场”理论(3-7人支撑结构)是对抗大企业“内耗”的一种具体实践。管理者应从“任务分配者”转变为“能量构建者”,设计机制让小团队形成“更强的大脑和心脏”。
- AI与“反人性”: 卓越的管理(如坚守最佳实践)和卓越的技术(如超级对齐)在本质上都是“反人性”的。它们都需要用理性的规则和纪律,去约束感性的、随意的、可能导致风险的人性冲动。
- 生产工具的定义: 李想对“生产工具”(减少工时、替代专业工作)的定义,为所有AI应用创业者提供了北极星。如果你的AI产品只是让人“更忙”,那么它的价值是存疑的。
- NPU的价值回归: 在云端算力竞赛白热化时,李想强调了“端侧NPU”的决定性价值。在终端产品上,能效比和绝对性能(如能跑3B还是30B模型)将是AI体验的核心瓶颈。
- 智慧与AI: AI(智力)的终极价值是释放人类,使其有时间追求“智慧”(关系)。这为“AI将如何影响人类”提供了一个积极的答案:AI负责“做事”,人类负责“做人”和“连接万物”。
金句 & 原声引用
- 关于AI终端: “我们希望能够成为全球领先的人工智能, 终端企业。”
- 关于生产力: “人工智能变成生产工具, 然后才是真正人工智能爆发的时刻。”
- 关于方法论: “严格的按照最佳实践其实是反人性的, 随心所欲, 然后才是然后满足人性的。”
- 关于组织能量: “人和人之间的能量始终存在的时候, 这些争执这些讨论, 这些吵架就是一个更完善的大脑。当这些能量消失的时候...其实就是内耗。”
- 关于AGI终端之战: “在物理世界这个范围里边, 我认为可能会翻过来就是终端企业, 然后的价值会战会战胜平台企业。”
- 关于能力构建: “在人工智能时代, 研究等于能力。” (转述陆奇观点)
- 关于亲密关系: “(在亲密关系里)是我需要他们, 超过他们需要我。”
- 关于人的价值: “人是用来发挥的, 人不是用来改变的。”
- 关于智慧: “什么是智慧, 我觉得智慧就是我们和万物的关系。”
- 关于AI安全: “今天大模型的架构对人类其实是挺安全的...(改变它)你要重新去做训练。”
本文使用 markdown.com.cn 排版