携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第 12 天,点击查看活动详情
欢迎关注我的公众号 [极智视界],获取我的更多笔记分享
大家好,我是极智视界,本文介绍一下 壁韧新推出的国产最强 GPGPU BR100。
昨天,笔者一个在壁仞的朋友,跟笔者 炫 他们的产品 BR100,甩过来一个链接,我顺手回了一个 你真棒 (当时没点进去看 <敷衍一下 哈哈>)。今天早上点开链接看了一下,一看性能参数,不得了啊,居然对标 A100 & H100。这么任性的吗,我了解的以前我接触过的 国产推理卡 都是对标 T4、P4,BR100 的这一波性能对比让我实属惊叹,忍不住写篇文章记录一下。
三年前,我对国产卡信心满满 (可能是源于心中那满满的爱国情怀),也一直喊口号,最开始喊:寒武纪你可以的,后来喊:昇腾你真棒,再后来看到一波国产GPGPU企业的崛起,像登临啊、摩尔线程啊、壁仞啊... 一晃三年过去了,回过头来发现业务中用的还是 英伟达的卡,时间与现状 让我对国产卡似乎在不知不觉中逐渐失去了信心。仔细想想,问题很多啊,你生态比得过人家吗;你性能比得过人家吗;你编解码比得过人家吗;你支持的网络有人家的丰富吗,人家在不断支持 Transformer 的时候,我们还在拿 我们能够方便适配主流网络,如resnet50、yolo来推销 ,总感觉慢一拍。唯一拿得出手的,可能就是 便宜。
我承认 BR100 的出现,似乎让我重拾了信心。昨天,壁仞科技推出了首款面向云端人工智能训练和推理的 GPGPU 产品 BR100,号称其峰值算力超过了目前英伟达在售的 A100 的三倍,甚至能对标还没发售的 H100,国产芯片能做到这种程度,应该极力鼓掌啊~
来看看公布的性能参数对比:
| BR100-OAM | BR104-300W PCIe | NVIDIA H100 SXM5 | NVIDIA H100 PCIe | NVIDIA A100 PCIe | |
|---|---|---|---|---|---|
| 形态 | OAM | 双FHFL PCIe | PCIe | PCIe | PCIe |
| FP32算力 | 256 TF | 128 TF | 60 TF | 48 TF | 19.5 TF |
| TF32+(TF32) | 512 TF | 256 TF | 500 TF | 400 TF | 156 TF |
| BF16 | 1024 TF | 512 TF | 1000 TF | 800 TF | 312 TF |
| INT8 | 2048 T | 1024 T | 2000 T | 1600 T | 624 T |
| 显存 | 64 GB | 32 GB | 80 GB | 80 GB | 80 GB |
| 接口 | PCIe 5.0 | PCIe 5.0 | SXM5 | PCIe 5.0 | PCIe 4.0 |
| 带宽 | 512 GB/s | 192 GB/s | 900 GB/s | 600 GB/s | 600 GB/s |
| 功耗 | 550 W | 300 W | 700 W | 350 W | 400 W |
数据不多说了,看起来十分 漂亮,看了发布会,总结 BR100 的几个主要亮点:
- 能效比高,可以看到,BR100 算力很高,功耗却相对来说并不高,这样一来一去,能效比就上来了;
- TF32+ 新精度,英伟达在 安培架构 中新增了 TF32 和 BF16 的精度支持,让用户在之前 FP32 / FP16 / INT8 的基础上有了更多的选择,而壁仞原创定义了 TF32+ 精度支持,相较于 TF32,在满足同样动态表示范围的前提下,增加了 5 位尾数,可以实现比 TF32 更加高的数据精度和推理性能,适用于稠密矩阵运算;
- PCIe 5.0 接口,可以看到 A100 还在使用 PCIe 4.0,BR100 采用 PCIe 5.0 进行主机互联,可以极大提高
HostToDevice或DeviceToHost的异构传输效率; - 虚拟示例,类似安培架构中的 MIG,允许每个实例进行物理隔离,相互独立;
说这么多,上几张图吧:
吹嘘了这么久,最后拿两个朋友的话来做个结尾。朋友甲:就看软件做的咋样了~~ ,朋友乙:最好不是 PPT 选手~~
好了,以上分享了 壁仞新推出的 GPGPU BR100,希望我的分享能对你的学习有一点帮助。
【公众号传送】