这篇是深夜观看黄教主摊饼的临时记录稿,看完会议稍微修改下格式我就直接发了,
接下来直接开始吃饼
第一个饼:数据中心增长规模
他认为到2030年,数据中芯的资产投入会突破1万亿美元
然后黄色的是英伟达的数据中心服务收入(2024年看起来大概占1/4)
潜在意思就是NVDA的未来大大的好,未来全是Money
第二个饼:CUDA很强
太无聊了,总之放了一堆基于CUDA的库逐个介绍
核心就是说,我们不止强在硬件,我们的CUDA也超强
第三个饼:边缘计算+6G
说要把AI用到通信网络上,做6G时代的AI通信网络……声称这将是未来大规模设备运行在云端的重要模块。
说实在的,我想象不了通信端的AI要解决什么问题。
如果是要做整个通信端的效率优化,目前的算法就可以了,也用不上LLM。
或者他想画的饼是Token变成和电、流量一样基础的东西。然后要更近端分发,那么边缘设备做边缘设备的事情,了不起在基站也塞一些服务器分担。
但反而是AI-RAN这种莫名其妙的东西,实在是理解不了。这个饼实在太硬了。
第四个饼:汽车智驾的安全方案
在这里讲了一下自己的NVIDIA Halos,提供从芯片到部署的安全方案
中间穿插了一下基于Omniverse构造数字孪生的仿生环境来辅助训练的场景
这个饼刚出来的时候挺莫名其妙的,结果在后面的机器人环节又一次CALL back了
第五个饼:推理也需要超级卡!
这个环节就一个核心:未来推理的需求会暴增,而且是像R1一样的推理类模型,我的NVL72(搭载了72个B200芯片的服务器)很强大,绝对适配这个需求!
我就不列举他的参数了,感兴趣可以自己在官网看www.nvidia.com/zh-tw/data-…
下面这张图是官网的简要性能参数对比(VS H100)
他从吞吐量和计算速度两个维度反复说明,给了这样一个图
用了一个AI工厂的比喻,将推理比喻成Token的生产工厂。那么最大的回报值一定是产生在吞吐量和计算速度的最优函数中——也就是他最新的NVL72哈哈。
第六个饼:分布式推理库
开源了一个分布式的推理库,类似DeepSeek开源周的那个东西
现在还没看到大家的反馈,不知道这东西实际效果怎么样
英伟达在过去有个类似的项目,即英伟达的CUTLASS,一个GEMM的算子库。
然后我在上篇文章《简明科普:DeepSeek Infra开源周 全解析》里说了,DeepSeek觉得这个GEMM算子库还不够好,一路优化(甚至到了机器码层面),然后提出了DeepGEMM。
所以很难说这东西效果如何,做芯片的未必是最懂芯片优化的,这是事实。
第七个饼:我的新芯片!超级强大
这是本次发布会第一次高潮。
在这一页PPT出现后,NVDA的股票终于止住了从发布会开始一直以来的跌幅,即118.9→116.5(2%),怒回117.5。所以PPT的配色真的很重要啊。
这张图就是列举了最新NVL72服务器在各种场景下的推理表现。特别注意最中间那个发光的地方,那就是在第五个饼那里他提到的吞吐量和计算了之间的最优区间。
第八个饼:买的越多省的越多
老黄用了两张图,形象说明了NVL72 相较传统H100的“性价比”优势。
还是他前面用到的AI工厂例子,在同样的水平下
H100是45KGPU,1400个机架,产生300M的输出
NVL72则是85KGPU(更强),600个机架(更少空间),以及12000M的输出(40倍)
所以他直接对云服务厂商喊话:“买得越多省得越多”
但是没有提及H100和NVL72的价格对比,只有真正折算全成本,才有真正的性价比
也没有提及如Ktransformor这样利用RAM,如DS-3FS这样利用SSD来提升推理性能的项目——那当然不能提啊,简直是拆家了
第九个饼:Omniverse仿真系统
前面汽车智驾的时候提了一嘴,这里又callback了
他这里拿数据中心搭建中的布局、服务器参数配置、环境参数(温度)等举例子,说NVDA Omniverse能够提升对数据中心的组建速度并降低试错成本。
第十个饼:强,更强,和超强
前面提到的那个相较H10040倍的是当前在售的GB200组装起来的NVL72。
老黄像小米一样,搞了个Ultra版,用的是GB300芯片,各种性能上1.5X,2X的
然后是下一代架构Rubin,这次出现了NVlink6,互联性能提升,干脆整个服务器的GPU规模从72进一步升级到了144…
性能就看图吧,又是比上面那张图各种2X,3.3X
然后Rubin也有Ultra版本…Rubin Ultra NVL576!
但是里面的HBM4e,NVlink7都是还没影的事情
下面这张图就是最显著的对比,相比之下blackwell都被衬托成了小老弟
说真的,这个饼某种意义上真的香。但我吃不下:
第一,老黄没有回答大家最关心的那个问题——算力通缩到底存不存在,整个市场的Token消耗量演进趋势如何?当然这个问题他也回答不上来。
第二,性能的堆叠受益于高制程的芯片,CPO,HBM等对中国封锁的技术。比起大模型的Scaling Law撞墙,我更希望硬件的摩尔定律撞墙,否则中国追起来真的很困难。
第十一个饼:以太网网络平台
马斯克的X造了一个叫Colossus的超级集群。对,就是那个训练出Grok3的10万卡集群。
这么大规模的网络集群用于训练的时候需要解决非常困难的网络通信问题,而这就是他所介绍的NVDA Spectrum-X。
老黄为了解释这个事情多么困难,还拿了两根线缆来解释10万卡互联有多恐怖。然后他就在台上花了2分钟解开纠缠在一起的两根绳子哈哈。
第十二个饼:CPO实装
CPO大概意思就是,以前数据传输中,交换机(负责数据传输)和光模块(负责光-电信号转换)是分别安装在PCB板上的,这样信号从光模块跑过去交换机那里还要走一下PCB板上的路径。
而CPO干脆把两个东西封装到一起了,这样就能大大提高数据传输效率。
不过这个饼大会前大家已经猜到了,因为台积电那边早就传出2025年量产CPO产品了。
第十三个饼:PC还有未来
老黄说AI Agent在未来会越来越常见,与AI Agent的合作会成为所有企业工作的日常。
所以!现在的PC out 了,需要上新一代的AI PC。
这个饼怎么说呢——在端侧推理没有成熟应用出现之前,大家还是只能看到云端服务的便利性和成本优势。实在很难啃下去啊。
第十四个饼:机器人
乏善可陈。就是把前面的Omniverse拉出来再说了一下,可以构建数字孪生、仿生环境,加速机器人训练和数据构造blabla
最大的亮点是发布会上这个机器人真的很可爱,有点像瓦力!
对了,最后还开源了一个机器人通用模型N1
但是呢,现在机器人的关键问题可能不在模型,而在硬件成本、数据成本上。
当然,硬件供应链会加速优化,数据成本老黄也推荐了自家的Omniverse。但整体的效果怎么样我好存疑。我一直对人形机器人这个赛道,抱有类似VR的看法——说起来很美好,落地时技术和需求双杀。
第十五个饼:黄教主眼中的AI未来
其实这是一开头就放出来的饼,应该是第一个饼才对。不过我漏掉了,又懒得调整这篇内容,毕竟只是笔记稿,不想费功夫。
黄教主把AI分成了四个阶段:
① 上个时代的机器学习或图像智能
② 当前的生成式智能
③ 较快到达的Agent智能
④ 最终的物理世界智能,通用机器人
还好吧,这种饼我吃太多了,已经没感觉了。难怪当时开盘跌了那么多哈哈。
最后补充几个有意思的事情
第一,英伟达的架构命名规则
在A卡以前,是特斯拉、费米、开普勒这样耳熟能详的科学家。
我不小心发现A卡发布以后(2020年以后),新的GPU架构命名似乎DEI化了。
第二,后台人员惨了
不完全统计,直播莫名中断5次以上(是官方直播源中断),我切过去B站的弹幕上全是:“老板,碟卡住了”。
递给老黄的两条线缆绳绕在一起,让老黄解了两分钟没解开,以至于对台后说了声 thank u
机器人视频播放的无故中断了,最后进行了重播哈哈。老黄说,我需要某个人来和我聊聊,但没人出现,只是默默重播。
第三,我亏了!
买了一张CALL,想着老黄一开口就清仓,结果忙着聊天和记录,忘记卖了。发布会结束后挥泪贱卖,折价60%。
一起熬夜看GTC的朋友买了一张PUT,但时间磨损太严重,也亏了。这让我心里好过许多,毕竟朋友的成功有时候比他人的成功更伤人。
第四,我真的很喜欢那个机器人!
不需要跳很傻逼的舞蹈,也不需要会翻跟斗,更不需要去流水线抢工作!
萌就是生产力!shut up and take my money!
国产机器人改改自己的审美吧,真是丑得受不了了,丑的要原地爆炸了。
OK,今天的内容就到这里,感谢您抽出的宝贵时间听我絮叨。
我是Martin,写作和分享各种我感兴趣的内容,并尽可能用通俗化语言进行讲解。
最近这段时间暂时勉强可以定义我为AI博主,但哪天我写装修指南也请不要感到丝毫意外。
关注请谨慎,阅读请放松~
祝您家庭幸福,身体健康,最后事业有成~
最后,如果你对AI、出海、理财、文学、硬件…感兴趣(可能还有别的选项)。总之你也兴趣广泛,欢迎加我,我最近想拉个群聊聊天。微信后台留言Martin获取二维码~