极智芯 | 不要神乎其神 来看全球最强芯H200的提升到底在哪里

62 阅读6分钟

欢迎关注我的公众号 [极智视界],获取我的更多经验分享

大家好,我是极智视界,本文分享一下 不要神乎其神 来看全球最强芯H200的提升到底在哪里。

邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码和资源下载,链接:t.zsxq.com/0aiNxERDq

NVIDIA 突然推出了全球最强芯 H200,而 H200 不能说是 H100 的下一代 GPU,只能说是 H100 的升级版,因为它们同属于 Hopper 架构,下面是 H200 的产品图,

看了一圈数据,从 GPU 架构上来看 H200 相比于 H100 并没有过多的变化 (当然啦,都是 Hopper),所谓的提升主要体现在 HBM 上。H200 将 H100 中的 HBM3 升级为了 HBM3e,这样直接带来的收益是 GPU 显存容量和显存带宽的提升,其他真的没啥提升,所以不要跟节奏神乎其神了,还是需要理性分析一下。我整理了一下 H200 和 H100 的 GPU 性能数据对比,可以看一下,

数据胜于雄辩,来分析一下上面的数据对比。可以看到涉及算力的数据,如 FP64 算力、FP64 Tensor Core 算力、FP32 算力、TF32 Tensor Core 算力、BF16 Tensor Core 算力、FP16 Tensor Core 算力、FP8 Tensor Core 算力,这些算力参数 H200 都是和 H100 一致的。而另外还有个 "显眼包" INT8 Tensor Core 算力,官方给的 H200 的 INT8 Tensor Core 算力是 3958 TFLOPS,对比 H100 是 3958 TOPS,值是一样的,就是单位不一样。这里我严重怀疑是 NVIDIA 官网给的 H200 INT8 Tensor Core 算力单位弄错了,理应为 TOPS 而非 TFLOPS。我之前有篇文章 <极智AI | 输入图片BatchSize和分辨率对模型计算量和参数量的影响> 有关于算力单位 TFLOPS 和 TOPS 以及 TFLOPs 的详细介绍,感兴趣的同学可以爬楼翻阅。简单来说,TFLOPS 表示每秒一万亿(=10^12)次的浮点运算,这里 H200 中用来计量 INT8 算力明显不合适,所以暂且认为两者的 INT8 Tensor Core 算力是一样的,估计事实也是如此。这样,两者的算力参数已经对齐,说明 H200 在算力性能上并没有提升

作为一张计算卡,前面说的算力是一个重要维度,除了算力,带宽也是一个重要维度。记得之前老美禁售 H100、A100 的时候,NVIDIA 给咱们特供的 H800、A800 嘛。这里的 H800 和 A800 就是算力不变、而对带宽进行了阉割的计算卡,这足以说明带宽对计算卡性能的影响。这里也是类似,H200 相对于 H100 重要的提升就在带宽上 (这里其实可以理解为 带宽 和 显存 的指标是一体的,因为他们都是由 HBM 带来),H200 升级了 HBM3 到了 HBM3e。没错,就只有这样而已。从 HBM3 升级到了 HBM3e 后,会直接带来显存、带宽的升级。而对于 上表中标红的 MIG,也可以简单地理解为,总的显存升级了,每个小 GPU 分配到的显存自然也增加了。

那么 HBM3e 是何须大神也呢? HBM3e 是一种高带宽存储器 (High Bandwidth Memory),与传统的 DDR SDRAM 相比,它可以提供更高的内存带宽和更低的功耗。HBM3e 通过堆叠的方式集成到 SoC 封装内部,而不是像 DDR 那样安装在外围板上,从而大大缩短了信号传输距离,减少了延迟和能耗,增加了内存容量的同时提高了内存访问速度。有消息称 H200 是升级成了美光的 HBM3e,所以这里就拿美光的 HBM3e 来说,其产品展示图如下,

美光 HBM3e 单颗提供 1.2 TB/s 的带宽,单颗 8 层 (8-high) 提供 24 GB 的显存 (还有更先进的 12 层 (12-high) 32 GB 版本)。来算一算,H200 的显存带宽是 4.8 TB/s,若是 4 颗 32 GB 的 HBM3e,那就是刚刚好,若是 24GB 的版本,那就需要堆 6 颗,但若是 6 颗 24 GB HBM3e,那么 H200 的显存带宽理应能达到 6 x 1.2 = 7.2 TB/s 才对,而实际是只有 4.8 TB/s。所以从这个角度看,我还是觉得可能是 4 颗 36GB 版本的 HBM3e,这样比较合理 (H100 是 4 颗 20 GB HBM3)。而对于 H200 的显存,其实不管是 4x 36 GB版本 还是 6x 24 GB版本,都应该是 144 GB 才对。但是正如大家看到的,实际公布的 H200 的显存容量是 141 GB,这里外里差了 3 GB,看起来比较诡异,这是咋回事呢。我其实也觉得奇怪,所以也去网上一顿神搜索,发现大部分的博主对这点好像比较忽视,都是在各种吹很少有分析的。后来找到一个我觉得也还靠谱的观点:"本身理应 144 GB,但因量产原因保留了一小部分作为冗余,以提高良品率",暂时先这么认为吧。

这样,一切的一切,似乎都说的通了。所以千万不要人云亦云、神乎其神了,虽然 H200 很强,但要理解这种强是继承自 H100 的强,也不用过于感叹。待 NVIDIA 再一次颠覆,再感叹也不迟,而也许,这种颠覆又将不远,可能就在明年 3nm 的 B100。

好了,以上分享了 不要神乎其神 来看全球最强芯H200的提升到底在哪里,希望我的分享能对你的学习有一点帮助。



 【公众号传送】

《极智芯 | 不要神乎其神 来看全球最强芯H200的提升到底在哪里》


畅享人工智能的科技魅力,让好玩的AI项目不难玩。邀请您加入我的知识星球, 星球内我精心整备了大量好玩的AI项目,皆以工程源码形式开放使用,涵盖人脸、检测、分割、多模态、AIGC、自动驾驶、工业等。一定会对你学习有所帮助,也一定非常好玩,并持续更新更加有趣的项目。 t.zsxq.com/0aiNxERDq

logo_show.gif