黄仁勋亲手打破GPU神话:AI芯片的第二次创业,从"炼模型"到"产Token"

0 阅读12分钟

黄仁勋亲手打破GPU神话:AI芯片的第二次创业,从"炼模型"到"产Token"

2026年3月,GTC大会上的一幕让整个半导体行业屏住了呼吸——黄仁勋掏出的不是一颗更快的GPU,而是一颗彻底颠覆游戏规则的推理芯片。这不仅是英伟达的一次产品迭代,更是整个AI算力产业链的「诺曼底登陆」。


token工厂4.png

一、一场精心策划的"自我革命"

2026年3月16日,加州圣何塞,GTC 2026。

当黄仁勋走上舞台时,所有人都以为他会像往年一样,掏出一颗更大、更快、更贵的GPU——然后宣布"这是世界上最强的AI芯片"。

但他没有。

取而代之的,是一款基于SRAM(静态随机存取存储器)的专用推理芯片——LPU(Language Processing Unit,语言处理单元)。这不是英伟达自己从零研发的产品,而是来自于一场价值200亿美元的"掏空式并购":2025年底,英伟达以资产收购+技术授权+核心团队挖角的方式,兵不血刃地拿下了AI推理芯片创业公司Groq的核心资产。

为什么黄仁勋要亲手打破自己维持了十年的"通用GPU包打天下"神话?

答案藏在一组数据里:思科等机构预测,到2027年,高达75%的AI工作负载将从训练转向实时推理。而在此之前,整个AI芯片市场几乎是"训练=一切"的单一逻辑。

黄仁勋看到了拐点——AI的重心正在从"造模型"不可逆地滑向"用模型"。这意味着,未来的算力竞争不再是谁能更快地训练出一个万亿参数的大模型,而是谁能以更低的成本、更快的速度,把Token一个一个地"生产"出来。

这是一场芯片产业的范式革命。


二、训练 vs 推理:一场被低估的"算力分裂"

要理解这场变革的深度,我们必须先搞清楚AI计算的两个阶段:

训练(Training):用海量数据"喂养"模型,调整数十亿甚至数万亿个参数,让它"学会"语言、图像或逻辑。这个过程就像一个学生疯狂刷题,需要极强的算力和极大的显存。

推理(Inference):模型训练完成后,面对用户的每一次提问,实时生成答案。这个过程就像学生上考场答题,需要的是快速响应和低延迟。

在过去几年里,训练阶段消耗了绝大部分算力资源。但随着AI应用从实验室走向千家万户——ChatGPT日活用户破亿、AI Agent开始自主执行任务链——推理阶段的算力需求正在呈指数级爆炸。

一组残酷的对比

维度训练阶段推理阶段
核心瓶颈计算能力(FLOPS)显存带宽(Bandwidth)
关键硬件GPU + HBMGPU + SRAM/LPU
延迟容忍度高(小时/天级)极低(毫秒级)
并发需求低(少量大任务)极高(海量小请求)
成本敏感度低(一次性投入)极高(持续运营)

这就是问题所在:用训练芯片做推理,就像用大卡车送外卖——能送,但太贵、太慢、太浪费。

当越来越多的企业发现,推理成本正在吞噬AI应用的利润时,整个市场对"专用推理芯片"的需求,就从"锦上添花"变成了"生死攸关"。


三、SRAM vs HBM:半导体物理的"阶级分化"

外界有一种粗暴的误读:英伟达推出LPU意味着"抛弃HBM"。

这在半导体物理规律上根本站不住脚。

让我们从最底层的晶体管结构说起:

  • SRAM:每个比特需要6个晶体管(6T结构),速度极快,但面积巨大,成本高昂,容量做不大。

  • DRAM(HBM的基础):每个比特仅需1个晶体管+1个电容(1T1C结构),面积小,容量大,但速度较慢。

打个比方:SRAM是市中心的独栋别墅,进出极快,但寸土寸金,住不了多少人;DRAM是郊区的高层公寓,虽然远了点,但能容纳海量住户。

对于一个动辄数千亿参数的大模型来说,它需要的是"高层公寓"(HBM)的巨大容量,而不是"独栋别墅"(SRAM)的极速响应。

但推理场景不同。

在推理阶段,模型已经训练好了,不需要把所有参数都同时放在显存里。真正需要的是:当用户发出一个请求时,系统能以最快的速度读取相关参数、计算、生成Token、输出答案。

这就是LPU的设计哲学:用SRAM的极致带宽(150 TB/s),消灭数据搬运的延迟,让Token生成速度从100个/秒飙升到1500个/秒以上。

当然,LPU不能独立运行——SRAM容量有限,装不下完整的大模型。所以英伟达的策略是:GPU主内(训练+模型加载),LPU主外(实时推理加速),两者协同工作。

这种"算力的阶级分化",本质上是对不同工作负载的精准匹配——用最合适的钱,干最合适的事。


四、200亿美元的"合法掏空":一场教科书级的商业操盘

如果说LPU是技术层面的创新,那么收购Groq的手法,则是商业层面的"艺术品"。

背景:Groq,由前谷歌TPU核心成员Jonathan Ross创立,是全球最危险的推理芯片"刺客"。它的LPU芯片以超低延迟著称,吸引了超过200万开发者,被视为英伟达在推理端最大的潜在威胁。

问题:如果英伟达直接收购Groq,必然会触发美国FTC和欧盟的反垄断审查——"全球最大的AI芯片公司收购推理端最强的挑战者",这个标题足以让任何监管机构按下否决键。

黄仁勋的解法

  1. 资产收购:花200亿美元买断Groq的核心专利使用权,而非收购公司本身。

  2. 团队挖角:把创始人Jonathan Ross连同200多名核心工程师"收编"进英伟达。

  3. 保留空壳:Groq公司名义上仍作为独立实体存在,规避反垄断审查。

结果:英伟达合法地获得了Groq的全部核心技术和人才,同时让Groq变成了一个没有灵魂的躯壳。更关键的是,Groq生态上超过200万开发者,被无缝接入了英伟达的CUDA软件栈。

这是一种极其残酷但高效的"掏空式并购"——黄仁勋用200亿美元的"过路费",兵不血刃地干掉了推理端最危险的对手,同时构建了"GPU+LPU"的全栈护城河。

用一句话总结:他不是在买一家公司,而是在买一个时代的入场券。


五、群雄并起:推理芯片战场全面开打

英伟达的LPU只是这场变革的"第一枪"。整个AI芯片行业,正在围绕推理端展开一场前所未有的混战。

1. 亚马逊 + Cerebras:云端推理的"分治策略"

2026年3月14日,亚马逊宣布与AI芯片初创公司Cerebras合作。他们的方案别出心裁:

  • Trainium3(亚马逊自研)负责"预填充"阶段:将用户的自然语言请求转换为Token。

  • Cerebras芯片负责"解码"阶段:高速生成答案。

这种"分工协作"的模式,本质上是对英伟达"一家通吃"的挑战。Cerebras已经与OpenAI签下了100亿美元的芯片供应协议,估值达到231亿美元。

潜台词:推理市场足够大,不需要所有人挤在英伟达的船上。

2. 谷歌TPU:悄然蚕食的"第三者"

业界传出,Meta计划在2027年将部分推理工作负载切给谷歌的TPU。

这正是黄仁勋最担心的场景:当大模型逐渐同质化,推理成本的极致压缩就成了生死线。如果英伟达继续用"杀鸡用牛刀"的GPU去做低延迟推理,大客户迟早会跑向谷歌、AMD,甚至初创公司。

LPU的推出,与其说是进攻,不如说是防御。

3. Groq"空壳"继续扩张

讽刺的是,虽然核心团队被英伟达"收编",但Groq的代工订单仍在扩大——三星代工厂的晶圆产量从9000片/月提升到了15000片/月。这意味着,市场上仍然存在以"Groq"名义运行的推理芯片产品。

黄仁勋的算盘很清楚:即使有人用"原版Groq"芯片,他也不在乎——因为最核心的技术和人才,已经在他手里了。


六、国产推理芯片:在夹缝中寻找"超车弯道"

面对英伟达的"一分为二"战略和国际巨头的混战,国产芯片企业并没有坐以待毙。虽然在绝对性能上暂时无法与LPU正面竞争,但他们正在通过"差异化路径"寻找突围机会。

1. 阿里平头哥:架构优化弥补制程差距

真武810E采用自研并行计算架构和ICN片间互联技术,带宽达到700GB/s。虽然不是SRAM方案,但通过架构层面的深度优化,在推理场景中实现了不错的性价比。

核心思路:不追求单芯片性能的极致,而是追求系统级效率的最优。

2. 百度昆仑芯:计算与通信并行

昆仑芯的XPU架构采用"计算和通信并行处理"的设计,在上一组数据计算时就提前请求下一组数据,减少空等时间。

类比:就像一个聪明的厨师,不会等上一道菜完全做完才开始准备下一道,而是同时进行多个步骤。

3. 寒武纪:推理芯片的国产核心

作为A股估值最高的AI芯片公司之一,寒武纪2026年净利预期增长77%,PE维持在80-100倍。市场对它的定位很明确:国产推理芯片的核心标的

4. 差异化路径:应用为王

国产厂商的最大优势不在硬件参数,而在生态适配和成本控制

正如一位业内人士所言:"对于AI这样典型的'黑箱用例'来说,用户并不关心AI背后的算力结构和运行逻辑。一个好用、易用、低成本的综合体验,才是市场真正看重的核心竞争力。"

中国的策略不是跟英伟达拼高端制程,而是拼应用、成本和合规算力——用西部绿电+智算中心,把一度电变成Token卖到全球。


七、Token经济学:新的"石油炼厂"

如果说训练时代的核心公式是:

算力 × 数据 = 模型

那么推理时代的核心公式变成了:

算力 × Token = 现金流

黄仁勋在GTC 2026上提出的核心概念就是**"Token工厂"**——一个专门优化Token生产、提升吞吐量的算力体系。

关键数据

  • 全球AI基础设施投资突破1万亿美元(2026年)

  • Blackwell每Token成本比上代降低35倍

  • Vera Rubin平台推理效率提升10倍,单Token成本降至1/10

  • 2027年AI芯片市场预计进入万亿美元时代

这意味着什么?

Token正在成为新的大宗商品——就像石油需要炼厂来精炼,Token需要算力中心来"生产"。谁能以最低的成本、最高的效率生产Token,谁就掌握了AI时代的"石油定价权"。

对于中国来说,这是一个巨大的机会:

  • 算力出海:利用西部绿电优势,建设智算中心,向全球输出Token产能

  • 产业链重构:从"造芯片"转向"运营算力资产"

  • 估值范式转变:芯片公司不再看PE/销量,而是看算力产能×Token产量


八、结语:这不是一场芯片战争,而是一场"炼油厂"战争

当黄仁勋在GTC 2026的舞台上说出"算力即收入,Token即大宗商品"时,他宣告的不仅是英伟达的战略转型,更是整个AI产业的底层逻辑重构。

过去的十年,是"炼模型"的时代——谁的GPU更快、谁的模型更大,谁就是王者。

未来的十年,是"产Token"的时代——谁的推理效率更高、谁的Token成本更低,谁才能活下来。

对于所有芯片玩家来说,这不是一次简单的产品迭代,而是一场商业模式的重新定义

GPU的神话没有终结——它只是被拆分了。训练端的皇冠依然属于HBM和超大算力,但推理端的王座,正在被SRAM、LPU和无数专用架构重新争夺。

从"炼模型"到"产Token",AI芯片正在进行它的第二次创业。

而这一次,胜者不一定是跑得最快的,而是算得最精的。


信源:GTC 2026官方发布、雷科技、财联社、钛媒体、硅星Breaknews、网易财经等 数据截至:2026年3月21日