某机构Blackwell架构下MoE模型推理性能飞跃本文深入探讨了某机构最新的Blackwell架构与TensorRT-

随着AI模型不断变得更智能，人们可以依赖它们处理越来越多的任务。这使得从消费者到企业的用户与AI的交互更加频繁，意味着需要生成更多的令牌。为了以尽可能低的成本服务于这些令牌，AI平台需要提供最佳的单位功耗令牌吞吐量。

通过跨GPU、CPU、网络、软件、供电和散热的极致协同设计，某机构持续提升单位功耗令牌吞吐量，从而降低每百万令牌的成本。

此外，某机构不断增强其软件栈，以便从现有平台获得更高的性能。这提升了部署在某云服务提供商、GPU云、模型构建者、企业等处的某机构GPU大型安装基座的价值，使这些基础设施能够更长时间地保持生产力。

在本文中，我们展示近期在某机构Blackwell架构上运行的推理软件栈的更新，以及充分利用该软件栈全部能力，如何在DeepSeek-R1（一个最先进的稀疏混合专家推理模型）的多种场景下实现巨大的性能提升。

最新的某机构TensorRT-LLM软件提升推理性能

某机构GB200 NVL72机架级平台使用第五代某机构NVLink互连和NVLink Switch芯片连接72个某机构Blackwell GPU，提供机架内所有芯片间1800 GB/s的双向带宽。这个大规模纵向扩展域针对基于稀疏MoE架构的模型进行了优化，这类模型需要频繁地在专家之间交换数据以生成令牌。

Blackwell架构还集成了对NVFP4数据格式的硬件加速，这是一种某机构设计的4位浮点格式，与其他FP4格式相比能更好地保持精度。此外，如分离式服务（在一组GPU上执行预填充操作，在另一组上执行解码操作）等优化也利用了NVL72架构和NVLink Switch技术。

这些架构创新使某机构GB200 NVL72能够在最新的开放模型上提供行业领先的性能，包括DeepSeek-R1——一个拥有6710亿参数的稀疏MoE模型，每个令牌激活370亿个参数。

图1： 使用最新某机构TensorRT-LLM软件，GB200 NVL72上使用8K/1K序列长度的DeepSeek-R1令牌吞吐量大幅提升。

GB200 NVL72此前已在1K/1K和8K/1K输入/输出序列长度的吞吐量/交互性曲线上展现出领先的每GPU吞吐量。

图2： 使用最新某机构TensorRT-LLM软件，GB200 NVL72上使用1K/1K序列长度的DeepSeek-R1令牌吞吐量大幅提升。

最新版本的某机构TensorRT-LLM开源库（用于优化LLM推理）在同平台上显著加速了性能，每块Blackwell GPU的吞吐量在过去三个月内提升了高达2.8倍。

这些成果背后的优化包括：

扩大使用某机构Programmatic Dependent Launch (PDL)以减少内核启动延迟，帮助提高整个交互性范围内的吞吐量。
多项底层内核优化，以更高效地利用某机构Blackwell Tensor Core。
新优化的全对全通信原语实现，消除了接收端额外的中间缓冲区。

TensorRT-LLM提供了一个高级Python LLM API。其PyTorch原生架构允许开发者试验运行时或扩展功能。这些优化现已包含在最新版本的TensorRT-LLM中。

使用多令牌预测和NVFP4加速某机构HGX B200性能

某机构HGX B200平台——由八块使用第五代NVLink互连和NVLink Switch连接的Blackwell GPU组成——在风冷部署中也实现了卓越的DeepSeek-R1推理性能。

两项关键技术使得HGX B200上的DeepSeek-R1推理性能大幅提升。首先是使用MTP（多令牌预测），它在整个交互性范围内显著提高了吞吐量。这在所有三种测试的输入/输出序列组合中都得到了体现。

图3： HGX B200上，使用1K/1K序列长度和聚合服务，FP8（无MTP）、FP8（有MTP）和NVFP4（有MTP）的吞吐量与交互性曲线对比。

其次是使用NVFP4，充分利用Blackwell GPU中强大的计算能力，在保持精度的同时提升性能。

图4： HGX B200上，使用8K/1K序列长度和聚合服务，FP8（无MTP）、FP8（有MTP）和NVFP4（有MTP）的吞吐量与交互性曲线对比。

NVFP4由完整的某机构软件栈（包括TensorRT-LLM和某机构TensorRT Model Optimizer）激活，以确保高性能和精度保持。这使得在给定交互性水平下，吞吐量再次获得巨大提升，并再次允许在同一HGX B200平台上实现更高的交互性水平。

图5： HGX B200上，使用1K/8K序列长度和聚合服务，FP8（无MTP）、FP8（有MTP）和NVFP4（有MTP）的吞吐量与交互性曲线对比。

通过充分利用某机构Blackwell平台的全部能力，LLM可以服务更多用户，并为每个用户提供显著更好的体验。

提供持续的性能提升

通过不懈的优化，某机构在整个技术栈上持续提供更高的性能。它通过年度产品更新节奏以及对现有产品的持续工作负载优化，提高了全系列AI模型的令牌吞吐量，带来更多的性能和价值。

某机构Blackwell架构提供了行业领先的推理性能，借助TensorRT-LLM中最新软件创新，某机构为客户、合作伙伴以及整个AI生态系统带来了又一次巨大的推理性能提升。

请访问某机构数据中心深度学习产品性能页面，了解更多关于某机构全栈平台提供的行业领先性能的信息。FINISHED