NVIDIA Blackwell架构横扫MLPerf训练v5.1基准测试
NVIDIA Blackwell架构在MLPerf Training v5.1的每一项基准测试中都实现了最快的训练时间,标志着在最新一轮结果中取得了完胜。随着开发者尝试新架构,以及模型规模持续增长,更多的训练算力变得至关重要。满足这种对交付算力的需求,需要在AI堆栈的每一层——从芯片、系统到软件——进行创新,以前所未有的速度提升性能。
MLPerf Training v5.1是衡量AI训练性能的长期行业基准测试系列的最新版本。该版本测量了代表广泛用例的七个模型达到指定目标精度所需的训练时间。为NVIDIA Blackwell和NVIDIA Blackwell Ultra GPU提供动力的Blackwell架构,在最大规模及每个提交的规模下,于所有基准测试中都提供了最高性能。
表1. NVIDIA平台在MLPerf Training当前测试的每个模型上均实现了最快的训练时间。
| 基准测试 | 训练时间 | 最大提交规模 |
|---|---|---|
| Llama 3.1 405B预训练 | 10分钟 | 5,120块Blackwell GPU |
| Llama 3.1 8B预训练 | 5.2分钟 | 512块Blackwell Ultra GPU |
| Llama 2 70B LoRA微调 | 0.40分钟 | 512块Blackwell Ultra GPU |
| FLUX.1 | 12.5分钟 | 1,152块Blackwell GPU |
| DLRM-DCNv2 | 0.71分钟 | 64块Blackwell GPU |
| R-GAT | 0.84分钟 | 256块Blackwell GPU |
| RetinaNet | 1.4分钟 | 512块Blackwell GPU |
MLPerf™ Training v5.0和v5.1结果于2025年11月12日从www.mlcommons.org检索,条目号:5.0-0082, 5.1-0002, 5.1-0004, 5.1-0060, 5.1-0070, 5.1-0072。MLPerf™名称和徽标是MLCommons Association在美国及其他国家的商标。版权所有。未经授权严禁使用。更多信息请参见www.mlcommons.org。
NVIDIA平台也是唯一一个提交了所有基准测试结果的平台。本文将深入探讨这些结果以及驱动它们的技术创新。
率先使用NVFP4提交FP4训练结果
低精度AI数据格式的创新是Blackwell架构(为Blackwell和Blackwell Ultra GPU提供动力)带来性能提升的关键推动因素。Blackwell架构集成了对FP4数据格式的硬件加速,包括其设计的NVFP4格式。Blackwell GPU每时钟周期的峰值FP4吞吐量是FP8的两倍。Blackwell Ultra GPU在此基础上进一步创新,将每时钟周期的FP4吞吐量提升至FP8的3倍。
正如论文《使用NVFP4预训练大语言模型》所示,与行业MXFP4数据格式相比,NVFP4在训练期间使用相同数量的词元时能提供更好的精度,或者使用显著更少的词元就能达到相同的精度。这意味着达到指定精度的训练时间更快,部署时间更短,训练成本更低。
本轮测试中,通过采用论文中推荐的许多技术,在MLPerf Training的每个大语言模型(LLM)中都应用了NVFP4。提交的方案还仔细应用了“修复”——在训练过程的某些部分使用更高精度的过程——以提高准确性。具体来说,提交的方案将最后几次训练迭代保持在FP8精度。
这些提交需要在技术堆栈的每一层进行创新,包括直接在Blackwell和Blackwell Ultra芯片中硬件加速NVFP4、包含其基础线性代数子程序库、Transformer引擎和Megatron-Core在内的加速库,以及新的数值技术。
Blackwell Ultra为LLM训练带来巨大飞跃
首次使用代号为“Theia”(以希腊视觉女神命名)的其AI集群提交了Blackwell Ultra的MLPerf Training结果。该集群总共包含512块Blackwell Ultra GPU,由多个其GB300 NVL72机架级系统通过其Quantum-X800 InfiniBand互连构建而成。
与Blackwell GPU相比,Blackwell Ultra GPU包含了几项重要增强:
- 1.5倍峰值NVFP4吞吐量。 Blackwell Ultra GPU采用了更新的张量核心,与Blackwell GPU相比,每时钟周期的峰值FP4吞吐量提高了1.5倍。这有助于加速受数学运算限制的通用矩阵乘法操作。
- 注意力机制中2倍的Softmax加速。 Blackwell Ultra GPU配备了升级的特殊功能单元,为关键的Softmax操作提供了2倍的加速吞吐量,这对于注意力层至关重要。在MLPerf基准测试中,这为注意力块带来了高达1.3倍的速度提升。
- 1.5倍更大的HBM3e容量。 Blackwell Ultra GPU采用了更高容量的HBM3e堆栈,现在是12-Hi,而Blackwell GPU是8-Hi。在Llama 2 70B LoRA基准测试中,这能够将整个模型装入一块GPU,无需CPU卸载,消除了模型并行通信开销并提高了通用矩阵乘法效率。
与最近使用Hopper架构的提交方案相比,Blackwell Ultra GPU的创新、NVFP4格式的采用以及软件优化,在GPU数量相同的情况下,大幅提高了预训练和LLM微调性能。
图1. 分别在512-GPU和8-GPU规模下,Llama 3.1 405B预训练和Llama 2 70B LoRA微调的相对性能。 MLPerf Training v4.1, v5.0, 和v5.1, 封闭分区。结果来自条目:4.1-0050, 5.0-0076, 5.0-0067, 5.1-0058, 5.1-0060。MLPerf名称和徽标是MLCommons Association在美国及其他国家的注册商标和未注册商标。版权所有。未经授权严禁使用。更多信息请参见www.mlcommons.org。
此外,其最新的Quantum-X800网络平台——由其ConnectX-8 SuperNIC、Quantum-X800 InfiniBand交换机和LinkX电缆组成——被用于连接构成Theia集群的多个GB300 NVL72机架。这标志着首次也是唯一一次向MLPerf Training提交800 Gb/s网络。
创造新的Llama 3.1 405B训练记录
在MLPerf Training v5.1中规模最大、最具挑战性的基准测试Llama 3.1 405B上,使用5,120块Blackwell GPU创造了10分钟的新训练时间记录。与上一轮使用Blackwell GPU的最快提交相比,性能提升了2.7倍。*
两大因素促成了这一巨大加速。通过使用NVFP4训练方案和通用软件增强,使用2,560块Blackwell GPU的提交获得了18.79分钟的成绩。这比之前使用相同数量其Hopper架构GPU的提交快3倍。* 当比较上一轮2,496块Blackwell GPU提交与本轮2,560块Blackwell GPU提交的性能时,每块Blackwell GPU的有效性能也提高了42%。
- MLPerf™ Training v5.0和v5.1结果于2025年11月12日从www.mlcommons.org检索,条目号:5.0-0067, 5.0-0002, 5.0-0003, 5.0-0004, 5.1-0003, 5.1-0004, 5.1-0071。每GPU性能并非官方MLPerf指标,通过提交的性能与规模比率相除得出。 MLPerf™名称和徽标是MLCommons Association在美国及其他国家的商标。版权所有。未经授权严禁使用。更多信息请参见www.mlcommons.org。*
图2. 在MLPerf Training v5.0和v5.1中提交的Blackwell GPU数量与性能缩放关系。 MLPerf™ Training v5.0和v5.1结果于2025年11月12日从www.mlcommons.org检索,条目号:5.0-0001, 5.0-0002, 5.0-0003, 5.0-0004, 5.0-0005, 5.0-0013, 5.0-0014, 5.1-0003, 5.1-0004, 5.1-0071。每GPU性能并非官方MLPerf指标,通过提交的性能与规模比率相除得出。 MLPerf™名称和徽标是MLCommons Association在美国及其他国家的商标。版权所有。未经授权严禁使用。更多信息请参见www.mlcommons.org。
此提交还总共使用了5,120块Blackwell GPU——是上一轮最大提交规模2,496块Blackwell GPU的两倍多——使用NVLink在机架内进行纵向扩展,并使用其Quantum-2 InfiniBand在多个机架间进行横向扩展。性能提升了2.7倍,这意味着收益来自于更大的规模以及每块GPU有效性能的提升。
从512块Blackwell GPU扩展到5,120块Blackwell GPU的缩放效率(即增加GPU带来的性能提升量)为85%。
这一点至关重要,因为它使得模型构建者能够扩展训练运行,加速训练时间和上市时间,同时确保每块增量GPU都能实现高利用率。
树立Llama 3.1 8B训练性能标杆
为确保MLPerf Training结果代表现代AI用例,基准测试会定期更新。本轮中,BERT-large被Llama 3.1 8B取代,后者在保持一个适用于更广泛平台的简单、易用的LLM的同时,显著提升了能力和训练复杂度。
其平台在Llama 3.1 8B训练基准测试中提供了最高性能,无论是在给定GPU数量下的性能还是规模下的性能。
Llama 3.1 8B的提交也得益于多项全栈优化。 其一是使用NVFP4训练方案,即使在模型小得多的情况下,也能在保持精度的同时提高性能。 其次,随着上下文长度的增加,注意力成为端到端LLM预训练性能的关键组成部分。之前的LLM预训练提交在注意力块中的批处理矩阵乘法输入中使用BF16精度。本轮提交在Llama 3.1 8B预训练基准测试中,对注意力BMM输入使用了FP8精度。这适用于前向和后向传播计算,为注意力BMM使用了更高的FP8精度。
与对应的BF16方案相比,FP8方案在MLPerf基准测试的注意力核中实现了高达1.3倍的更好性能,同时仍满足基准测试的精度要求。
本轮预训练基准测试中使用的FP8注意力方案,对查询、键和值张量以及后向传播中使用的输出梯度张量使用每张量当前缩放FP8。FP8注意力为Llama 3.1 8B模型带来了5%的端到端加速。用于延迟缩放和当前缩放方案的FP8注意力实现可在其cuDNN库中找到,其MLPerf提交通过其Transformer引擎库使用该库。
为预训练模型实施的其他软件优化包括以下内容,重点在于优化掉设备到设备内存复制和张量连接操作:
- 在Transformer Engine中实现融合的RoPE核,使用组合的Q/K/V输入并输出Q, K, V张量。这避免了在前向传播中拆分Q,K,V张量,以及在后向传播中连接dQ, dK, dV张量。
- 通过使用SBHD注意力布局,避免将注意力输入更改为BSHD布局。此更改在其Megatron-LM中实现。在此表示法中,B代表批大小,S代表序列长度,H代表注意力头数,D代表头维度,与Transformer Engine表示法一致。
- 将amax计算融合到生产者操作中。
在新FLUX.1基准测试中取得最高性能
另一项基准测试更新是用FLUX.1图像生成模型取代了Stable Diffusion v2。在此测试中,再次树立了标杆,使用1,152块Blackwell GPU以12.5分钟的训练时间提供了最快的规模训练。其也是唯一一个提交此基准测试结果的平台,突显了其训练栈的性能和多功能性。
Llama 2 70B LoRA软件优化
本轮实施了几项融合优化,显著惠及了Llama 2 70B LoRA微调基准测试。核心思想是使用LoRALinearLayer,它将LoRA适配器和冻结的通用矩阵乘法组合在同一模块中。构建这种抽象能够融合类型转换操作、缩放操作以及与冻结通用矩阵乘法的加法操作。
主要结论
其正以一年为节奏进行创新,涵盖GPU、CPU、纵向扩展网络、横向扩展网络、系统架构和软件,以提升性能、降低智能成本,并为新的AI突破铺平道路。
在其数据中心深度学习产品性能中心和性能资源管理器页面上查看更多性能数据。