极智AI | 性能碾压 壁仞推出国产最强GPGPU BR100

553 阅读4分钟

  携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第 12 天,点击查看活动详情

欢迎关注我的公众号 [极智视界],获取我的更多笔记分享

  大家好,我是极智视界,本文介绍一下 壁韧新推出的国产最强 GPGPU BR100。

  昨天,笔者一个在壁仞的朋友,跟笔者 他们的产品 BR100,甩过来一个链接,我顺手回了一个 你真棒 (当时没点进去看 <敷衍一下 哈哈>)。今天早上点开链接看了一下,一看性能参数,不得了啊,居然对标 A100 & H100。这么任性的吗,我了解的以前我接触过的 国产推理卡 都是对标 T4、P4,BR100 的这一波性能对比让我实属惊叹,忍不住写篇文章记录一下。

  三年前,我对国产卡信心满满 (可能是源于心中那满满的爱国情怀),也一直喊口号,最开始喊:寒武纪你可以的,后来喊:昇腾你真棒,再后来看到一波国产GPGPU企业的崛起,像登临啊、摩尔线程啊、壁仞啊... 一晃三年过去了,回过头来发现业务中用的还是 英伟达的卡时间与现状 让我对国产卡似乎在不知不觉中逐渐失去了信心。仔细想想,问题很多啊,你生态比得过人家吗;你性能比得过人家吗;你编解码比得过人家吗;你支持的网络有人家的丰富吗,人家在不断支持 Transformer 的时候,我们还在拿 我们能够方便适配主流网络,如resnet50、yolo来推销 ,总感觉慢一拍。唯一拿得出手的,可能就是 便宜

  我承认 BR100 的出现,似乎让我重拾了信心。昨天,壁仞科技推出了首款面向云端人工智能训练和推理的 GPGPU 产品 BR100,号称其峰值算力超过了目前英伟达在售的 A100 的三倍,甚至能对标还没发售的 H100,国产芯片能做到这种程度,应该极力鼓掌啊~

  来看看公布的性能参数对比:

BR100-OAMBR104-300W PCIeNVIDIA H100 SXM5NVIDIA H100 PCIeNVIDIA A100 PCIe
形态OAM双FHFL PCIePCIePCIePCIe
FP32算力256 TF128 TF60 TF48 TF19.5 TF
TF32+(TF32)512 TF256 TF500 TF400 TF156 TF
BF161024 TF512 TF1000 TF800 TF312 TF
INT82048 T1024 T2000 T1600 T624 T
显存64 GB32 GB80 GB80 GB80 GB
接口PCIe 5.0PCIe 5.0SXM5PCIe 5.0PCIe 4.0
带宽512 GB/s192 GB/s900 GB/s600 GB/s600 GB/s
功耗550 W300 W700 W350 W400 W

  数据不多说了,看起来十分 漂亮,看了发布会,总结 BR100 的几个主要亮点:

  • 能效比高,可以看到,BR100 算力很高,功耗却相对来说并不高,这样一来一去,能效比就上来了;
  • TF32+ 新精度,英伟达在 安培架构 中新增了 TF32 和 BF16 的精度支持,让用户在之前 FP32 / FP16 / INT8 的基础上有了更多的选择,而壁仞原创定义了 TF32+ 精度支持,相较于 TF32,在满足同样动态表示范围的前提下,增加了 5 位尾数,可以实现比 TF32 更加高的数据精度和推理性能,适用于稠密矩阵运算;
  • PCIe 5.0 接口,可以看到 A100 还在使用 PCIe 4.0,BR100 采用 PCIe 5.0 进行主机互联,可以极大提高 HostToDeviceDeviceToHost 的异构传输效率;
  • 虚拟示例,类似安培架构中的 MIG,允许每个实例进行物理隔离,相互独立;

  说这么多,上几张图吧:

  吹嘘了这么久,最后拿两个朋友的话来做个结尾。朋友甲:就看软件做的咋样了~~ ,朋友乙:最好不是 PPT 选手~~

  好了,以上分享了 壁仞新推出的 GPGPU BR100,希望我的分享能对你的学习有一点帮助。


 【公众号传送】

《极智AI | 性能碾压 壁仞推出国产最强GPGPU BR100》


logo_show.gif