某机构Blackwell架构下MoE模型推理性能飞跃

7 阅读5分钟

随着AI模型不断变得更智能,人们可以依赖它们处理越来越多的任务。这使得从消费者到企业的用户与AI的交互更加频繁,意味着需要生成更多的令牌。为了以尽可能低的成本服务于这些令牌,AI平台需要提供最佳的单位功耗令牌吞吐量。

通过跨GPU、CPU、网络、软件、供电和散热的极致协同设计,某机构持续提升单位功耗令牌吞吐量,从而降低每百万令牌的成本。

此外,某机构不断增强其软件栈,以便从现有平台获得更高的性能。这提升了部署在某云服务提供商、GPU云、模型构建者、企业等处的某机构GPU大型安装基座的价值,使这些基础设施能够更长时间地保持生产力。

在本文中,我们展示近期在某机构Blackwell架构上运行的推理软件栈的更新,以及充分利用该软件栈全部能力,如何在DeepSeek-R1(一个最先进的稀疏混合专家推理模型)的多种场景下实现巨大的性能提升。

最新的某机构TensorRT-LLM软件提升推理性能

某机构GB200 NVL72机架级平台使用第五代某机构NVLink互连和NVLink Switch芯片连接72个某机构Blackwell GPU,提供机架内所有芯片间1800 GB/s的双向带宽。这个大规模纵向扩展域针对基于稀疏MoE架构的模型进行了优化,这类模型需要频繁地在专家之间交换数据以生成令牌。

Blackwell架构还集成了对NVFP4数据格式的硬件加速,这是一种某机构设计的4位浮点格式,与其他FP4格式相比能更好地保持精度。此外,如分离式服务(在一组GPU上执行预填充操作,在另一组上执行解码操作)等优化也利用了NVL72架构和NVLink Switch技术。

这些架构创新使某机构GB200 NVL72能够在最新的开放模型上提供行业领先的性能,包括DeepSeek-R1——一个拥有6710亿参数的稀疏MoE模型,每个令牌激活370亿个参数。

图1: 使用最新某机构TensorRT-LLM软件,GB200 NVL72上使用8K/1K序列长度的DeepSeek-R1令牌吞吐量大幅提升。

GB200 NVL72此前已在1K/1K和8K/1K输入/输出序列长度的吞吐量/交互性曲线上展现出领先的每GPU吞吐量。

图2: 使用最新某机构TensorRT-LLM软件,GB200 NVL72上使用1K/1K序列长度的DeepSeek-R1令牌吞吐量大幅提升。

最新版本的某机构TensorRT-LLM开源库(用于优化LLM推理)在同平台上显著加速了性能,每块Blackwell GPU的吞吐量在过去三个月内提升了高达2.8倍。

这些成果背后的优化包括:

  • 扩大使用某机构Programmatic Dependent Launch (PDL)以减少内核启动延迟,帮助提高整个交互性范围内的吞吐量。
  • 多项底层内核优化,以更高效地利用某机构Blackwell Tensor Core。
  • 新优化的全对全通信原语实现,消除了接收端额外的中间缓冲区。

TensorRT-LLM提供了一个高级Python LLM API。其PyTorch原生架构允许开发者试验运行时或扩展功能。这些优化现已包含在最新版本的TensorRT-LLM中。

使用多令牌预测和NVFP4加速某机构HGX B200性能

某机构HGX B200平台——由八块使用第五代NVLink互连和NVLink Switch连接的Blackwell GPU组成——在风冷部署中也实现了卓越的DeepSeek-R1推理性能。

两项关键技术使得HGX B200上的DeepSeek-R1推理性能大幅提升。首先是使用MTP(多令牌预测),它在整个交互性范围内显著提高了吞吐量。这在所有三种测试的输入/输出序列组合中都得到了体现。

图3: HGX B200上,使用1K/1K序列长度和聚合服务,FP8(无MTP)、FP8(有MTP)和NVFP4(有MTP)的吞吐量与交互性曲线对比。

其次是使用NVFP4,充分利用Blackwell GPU中强大的计算能力,在保持精度的同时提升性能。

图4: HGX B200上,使用8K/1K序列长度和聚合服务,FP8(无MTP)、FP8(有MTP)和NVFP4(有MTP)的吞吐量与交互性曲线对比。

NVFP4由完整的某机构软件栈(包括TensorRT-LLM和某机构TensorRT Model Optimizer)激活,以确保高性能和精度保持。这使得在给定交互性水平下,吞吐量再次获得巨大提升,并再次允许在同一HGX B200平台上实现更高的交互性水平。

图5: HGX B200上,使用1K/8K序列长度和聚合服务,FP8(无MTP)、FP8(有MTP)和NVFP4(有MTP)的吞吐量与交互性曲线对比。

通过充分利用某机构Blackwell平台的全部能力,LLM可以服务更多用户,并为每个用户提供显著更好的体验。

提供持续的性能提升

通过不懈的优化,某机构在整个技术栈上持续提供更高的性能。它通过年度产品更新节奏以及对现有产品的持续工作负载优化,提高了全系列AI模型的令牌吞吐量,带来更多的性能和价值。

某机构Blackwell架构提供了行业领先的推理性能,借助TensorRT-LLM中最新软件创新,某机构为客户、合作伙伴以及整个AI生态系统带来了又一次巨大的推理性能提升。

请访问某机构数据中心深度学习产品性能页面,了解更多关于某机构全栈平台提供的行业领先性能的信息。FINISHED