Blackwell视角揭秘:生成式AI挑战如何重塑GPU芯片的未来版图

434 阅读11分钟

图片

Blackwell视角揭秘:生成式AI挑战如何重塑GPU芯片的未来版图

©作者| 坚果

来源| 神州问学

引言

自2023年以来,生成式AI技术的大模型快速发展,引发了业界对高性能计算需求的高度关注。针对大模型技术的计算需求,各大AI芯片厂商纷纷推出了各自的优化方案。在上月26日举行的Hot Chips大会上,众多芯片厂商展示了针对生成式AI技术高算力需求的各种解决方案。其中,英伟达公布的3月份发布的Blackwell架构细节尤其引人注目。8月28日,全球权威AI芯片模型处理能力榜单MLPerf公布,NVIDIA B200的性能是达到了上一代的Hopper H100的4倍,即性能提升了300%。英伟达再次彰显了其在AI计算领域的霸主地位。那么,英伟达针对新的大模型技术的算力需求挑战,究竟做了哪些优化?这又将给GPU芯片发展带来怎样的影响呢?

生成式AI来袭,迎接“巨兽”挑战

模型规模持续增长

近年来,生成式AI模型的尺寸急剧增加,从数百万参数的模型,到如今动辄数百亿甚至上千亿参数的超级模型,如GPT-3和GPT-4,这种规模的扩张不仅令人瞩目,也深刻影响着AI技术的应用范围。这些大模型通过生成文本、图像、音频等多媒体内容,展现出了前所未有的创造力和实用性。随着互联网技术的飞速发展,全球数据量呈爆炸式增长。这些海量数据为AI模型的训练提供了丰富的素材,使得模型能够学习到更加复杂和多样化的特征表示。例如,Adobe在增强其图像生成模型时,将数据集增加了近两倍,从而显著提升了模型的表现力和准确性。

随着任务复杂度的提升,对模型的要求也越来越高。为了处理更加复杂和精细的任务,如自然语言理解和图像生成等,模型需要具备更强的特征提取和表示能力。这要求模型具有更深的层次、更大的隐藏层尺寸和更多的参数,从而能够捕捉到更细微和抽象的特征。在今年的Hot Chips大会上,英伟达也表示大模型的规模已经从原来的千亿增长到万亿,如GPT-MoE-1.8T模型的万亿参数量级。

在今年的Hot Chips大会上,英伟达也表示大模型的规模已经从原来的千亿 增长到万亿,如GPT-MoE-1.8T模型的万亿参数量级。未来大模型的规模还在持续增长。

图片

端侧部署困难

在生成式AI模型迅速膨胀的背景下,如何在不牺牲模型准确性的前提下实现模型的小型化,成为了一个重要的研究方向。模型小型化不仅可以降低计算资源需求,还能显著提升模型在边缘设备上的部署效率。具体来说:

1.  模型轻量化: 模型轻量化旨在降低模型的存储和计算需求,使其能够在资源受限的设备上高效运行。这包括模型剪枝(移除权重较小的参数和贡献较低的卷积通道)、知识蒸馏(使用大型教师模型指导小型学生模型的训练过程)以及模型量化(将模型中的权重和激活值从高精度(通常是32位浮点数)转换为低精度(如8位整数或更低))。通过这些技术,不仅显著减少了模型所需的存储空间,还使得计算操作在硬件上更加高效,特别是在使用专用硬件加速器时。

2.  端侧算力不足: 尽管模型量化技术已经在一定程度上实现了模型尺寸的缩减,但在移动设备以及其他资源受限环境中部署大型模型时,我们依然面临着一系列严峻的挑战。这些挑战不仅源自于当前半导体集成技术所带来的计算资源与设备体积之间的固有矛盾——即在追求更小巧便携的设备形态的同时,难以同步扩展其内部的计算能力; 而且还包括了对于有限内存及存储空间的有效利用问题,以及在保障高性能运算的同时如何控制功耗,确保设备续航能力不受影响等多方面考量。上述种种因素共同构成了当前环境下,推动高性能计算模型向终端侧迁移所必须直面并着力克服的技术难关。

英伟达Blackwell架构优化,解锁大模型高效计算新思路

为了应对生成式AI技术带来的挑战,英伟达采取了一系列措施来提升性能和效率。Blackwell架构通过高度集成化的设计,显著提升了GPU芯片的整体性能。以下是Blackwell架构的主要特点:

1.  结合先进半导体制程工艺高度集成的超级AI芯片

Blackwell架构GPU拥有2080亿个晶体管,确保了芯片具有极高的计算能力和复杂性;采用台积电4纳米工艺制造,提高了芯片的集成度,降低了功耗和发热量;配备192GB的HBM3E显存带宽8TB/s,另有1.8TB/s带宽的NVLink扩展支持。极大提升了芯片的数据处理能力和效率。提供20 PetaFLOPS的AI性能(FP4),10 PetaFLOPS FP8的算力支持。对比1.8T的GPT-MOE混合专家模型的训练效果,用25000个Ampere GPU,需要3~5个月左右;要是用Hopper,需要约8000个GPU、90天来训练,耗电15MW;而用Blackwell,同样花90天,只需2000个GPU,耗电仅4MW。

图片

2.  最新的第五代NVLINK贯彻模型片间、卡间节点间通信

高带宽接口NV-HBI

提供10TB/S的带宽,让GPU芯片之间不会因为通信损耗而损失性能,没有内存局部性问题,也没有缓存问题,能支持更高的 L2 缓存带宽。

图片

NVLink-C2C

扩宽与Grace CPU的通信,如GB200 超级芯片采用 NVIDIA NVLink-C2C 互连技术,将 2 个高性能 NVIDIA Blackwell Tensor Core GPU 与 1 个 NVIDIA Grace CPU 连接,实现高效的计算协同。

图片

NVLINK Spine

被用于GB200 NVL72和NVL36服务器机架中,这些服务器提供多达36个Grace CPU与72个Blackwell GPU,全部使用NVLINK Switch机架完全连接,形成集群网络。该服务器提供720 PetaFLOP的训练能力与1440 PetaFLOP的推理能力,支持高达27万亿个参数的模型,并提供高达130 TB/s的多节点带宽。

Spectrum-X

Blackwell AI平台搭载的Spectrum-X是世界上第一个专为AI构建的以太网结构,由两款芯片组成——Spectrum-4(拥有1000亿个晶体管、51.2T带宽、64个800G和128个400G端口);Bluefield-3 DPU,配备16个Arm A78内核、256个线程和400 GB/s的以太网。这两款AI以太网芯片集成在Spectrum-X800机架中,为“端到端”云AI工作负载提供算力。

3.  提出FP4低精度量化系统和硬件计算方案

Blackwell GPU还采用了第五代张量核心架构,该架构具有新的微张量缩放FP格式,例如FP4、FP6和FP8。这些微张量缩放因子应用于固定长度向量,可以将元素映射到固定的缩放因子上,并提供了更宽的FP范围、增强的带宽、更低的功耗和更精细的粒度量化。

NVIDIA Quasar量化技术使用优化库、硬件和软件transformer引擎以及低精度数值算法将低精度格式(例如FP4)的数据转换为高精度数据。与BF16相比,Quantized FP4在大型语言模型(LLM)中提供相同的MMLU分数,并且在Nemotron-4 15B甚至340B的模型中提供相同的精度。

图片

英伟达推出的FP4等技术如何平衡模型容量与执行效率:通过支持FP4等低精度格式,Blackwell GPU能够在保持高精度的同时显著降低模型的存储需求和计算开销。这使得开发者可以在资源受限的环境下部署复杂的AI模型,从而实现更高的资源利用率。

图片

4.  软硬件优化结合全栈解决方案

Blackwell的全栈解决方案,从芯片级到集群级的设计整合,提供了一个全面的系统解决方案,旨在帮助应对未来AI计算的复杂性和提高计算效率。不同于前几个架构Blackwell不仅限于GPU本身,更涵盖了CPU、数据处理单元、网络接口卡、交换机等多个关键组件,形成了一个无缝集成的生态系统。英伟达作为拥有超强AI芯片和软件开发能力的行业领军企业,探索大模型计算全栈链路的打通优化,不仅仅丰富了Blackwell的适用场景,也从多方向探索了芯片计算的极限。

图片

**算力革命,GPU芯片未来发展
**

从此次英伟达争对大模型计算交出的答卷来看,未来的GPU芯片将重点朝着以下几个方向发展:

1.  高度集成化的算子结构设计: 当前,GPU芯片的设计正朝着高度集成化的方向发展,即通过模块化和定制化功能来提升整体性能。这种设计思路的核心在于将复杂的计算任务分解成多个独立的模块,每个模块负责特定类型的运算,如矩阵乘法、卷积操作等。这种做法不仅有助于简化芯片设计流程,还能根据不同应用场景灵活调整硬件配置,从而实现更高的资源利用率。

2.  高效能的互联技术: 高效能的计算节点间互联技术也是未来发展的重点之一。随着数据中心规模的不断扩大以及分布式计算环境的普及,如何有效地加强节点之间的协作变得尤为重要。先进的网络架构将成为解决这一问题的关键所在。英伟达的Blackwell的NVLINK技术从片间通信、异构通信到多GPU通信再到整个以太网的通信优化,加速了大模型大参量数据的实时处理能力。

3.  面向端侧推理优化: 随着AI技术的不断进步,越来越多的应用场景开始要求在终端设备上进行实时推理计算,比如物联网(IoT)、自动驾驶汽车等领域。在这种背景下,如何降低功耗、加快响应时间成为了亟待解决的问题。低精度算法作为一种有效手段,正在逐渐受到业界的关注。相较于传统的32位浮点运算,使用8位甚至更低精度的数据类型进行计算可以显著减少内存带宽需求和能量消耗,这对于资源受限的边缘设备来说尤为重要。

结语

生成式AI技术的迅猛发展推动了模型规模的持续扩大,这对高性能计算处理器提出了更高的要求。英伟达凭借其软硬件深度整合设计与高效通信优化策略,显著增强了模型参数处理能力。此外,英伟达推出的FP4低精度计算技术预示着大模型在边缘设备上部署速度的加快。由此可见,GPU芯片未来的发展方向将集中在算子的高度集成、快速的设备间数据交换,以及整体软硬件效能的提升上。同时,FP4计算精度技术的应用有望激发更多关于模型轻量化与端侧部署的技术创新,我们有理由相信这将促进未来端侧模型部署技术的进一步成熟与发展。

参考链接:

NVIDIA Blackwell Platform at Hot Chips 2024 - ServeTheHome