NVFP4技术如何加速AI训练与推理本文详细介绍了NVFP4这一4位浮点精度格式在NVIDIA Blackwell及后续

最新AI模型的规模和复杂性持续增长，对训练和推理所需的计算性能要求远超摩尔定律的跟进速度。为此，某机构进行了极致的协同设计，通过跨多芯片和大量软件的统一设计，实现了AI工厂性能和效率的代际大幅跃升。

低精度AI格式是提升计算性能和能效的关键。将超低精度数值的收益带到AI训练和推理中，同时保持高精度，需要在技术栈的每一层进行广泛的工程设计：涵盖格式创建、芯片实现、多库支持，并与生态系统紧密合作以部署新的训练方案和推理优化技术。从某机构Blackwell系列GPU开始开发并实现的NVFP4，提供了4位浮点精度带来的性能和能效优势，同时保持与高精度格式相当的准确率。

对于希望最大化AI训练和推理性能的用户，关于NVFP4有以下三点需要了解。

1. NVFP4 使Blackwell架构及未来的训练和推理性能实现巨大飞跃

某机构Blackwell Ultra GPU提供的峰值密集NVFP4吞吐量高达15 petaFLOPS——是同一GPU上FP8的3倍。这种增益不仅体现在峰值规格上，也体现在训练和推理任务的实际测量性能中。

对于推理，如近期一篇技术博客所示，在流行的671B参数混合专家模型DeepSeek-R1上，从FP8转向NVFP4后，在给定交互水平下，生成的令牌吞吐量得到了显著提升。吞吐量在给定令牌速率甚至更高令牌速率下都有增加，从而带来更好的用户体验。

[图1：在HGX B200上，FP8（无MTP）、FP8（带MTP）和NVFP4（带MTP）的吞吐量与交互性对比曲线，序列长度为8K/1K，聚合服务]

某机构最近还发布了NVFP4训练方案，将NVFP4显著的性能优势引入模型训练，使模型制作者能够更快、更低成本地训练AI。

[图2：在512-GPU和8-GPU规模下，Llama 3.1 405B预训练和Llama 2 70B LoRA微调的相对性能]

在最新版MLPerf训练基准套件中，多个某机构GB300 NVL72系统（总计512个Blackwell Ultra GPU）协同使用NVFP4精度，在64.6分钟内完成了Llama 3.1 405B预训练基准。这比上一轮使用FP8的512个Blackwell GPU（跨多个某机构GB200 NVL72系统）快1.9倍。

展望未来，某机构Rubin平台在训练和推理的NVFP4能力上实现了巨大飞跃，提供35 petaFLOPS的NVFP4训练计算能力和50 petaFLOPS的NVFP4 Transformer Engine推理计算能力。相比Blackwell，分别提升了3.5倍和5倍。

2. NVFP4 在行业基准测试中展现出卓越的准确率

要使MLPerf训练和推理的封闭组别提交结果有效，必须满足基准规定的精度要求。对于推理，响应必须达到特定精度阈值；对于训练，模型必须训练到特定的质量目标（即模型训练过程必须收敛）。

在最新版MLPerf训练中，某机构成功提交了在Blackwell和Blackwell Ultra GPU上使用NVFP4的所有大语言模型测试的封闭组别结果。同时，某机构在MLPerf推理中也使用NVFP4提交了涵盖多种模型和场景的结果，包括DeepSeek-R1、Llama 3.1 8B/405B和Llama 2 70B。某机构使用了NVFP4量化版本的模型，同时满足严格的基准要求。

[图3：DeepSeek-R1模型评估分数显示NVFP4精度与FP8基线精度高度匹配]

3. NVFP4 获得广泛且不断增长的生态系统支持

像某机构Model Optimizer、LLM Compressor和torch.ao这样的库，使开发者能够将以高精度训练的模型量化为NVFP4格式，并实现NVFP4 KV缓存以支持长上下文和大批量处理，同时保持精度。主流推理框架（包括某机构TensorRT-LLM、vLLM和SGLang）目前也支持以NVFP4格式运行模型，并提供NVFP4变体版本。例如，在HuggingFace上，开发者可以找到可部署的NVFP4版本，如Llama 3.3 70B、FLUX.2、DeepSeek-R1-0528、Kimi-K2-Thinking、Qwen3-235B-A22B和某机构Nemotron Nano。

生态系统也正在采用NVFP4来提高生产中多种模型的推理吞吐量。这些公司包括Black Forest Labs、Radical Numerics、Cognition和Red Hat。

Black Forest Labs与某机构合作，在Blackwell上扩展FLUX.2的NVFP4推理。Black Forest Labs联合创始人兼CEO表示：“通过叠加CUDA Graphs、torch.compile、NVFP4精度和TeaCache等优化，我们在单个B200上实现了高达6.3倍的加速——显著降低延迟，实现更高效的生产部署。”

Radical Numerics利用NVFP4加速科学世界模型的扩展。该公司联合创始人兼首席AI科学家表示：“与语言不同，科学数据推动我们超越经典的单模态自回归方案，需要极长上下文方法和强大的多模态融合。”他补充说，公司对使用低精度方案预训练和后训练其新架构“非常乐观”。

Cognition研究团队成员表示，通过在大规模强化学习中使用NVFP4，公司看到了“显著的延迟和吞吐量提升”。

Red Hat正在使用NVFP4量化扩展其LLM工作负载，为开发者提供接近基准的精度，同时保持在严格的内存预算内。通过在不显著损失质量的情况下大幅减少激活和权重的占用空间，NVFP4使Red Hat工程师能够利用现有基础设施，在更大的上下文窗口和更高并发下训练和服务最先进的LLM。

某机构Transformer Engine库包含了NVFP4训练方案的实现，像Megatron-Bridge这样的训练框架也为开发者提供了入门实现。某机构还持续创新并与生态系统合作，将NVFP4训练的性能和效率优势带给整个生态系统，为更快、更高效地训练更智能、更复杂的模型铺平道路。

了解更多

使用NVFP4可以在某机构Blackwell和某机构Rubin平台上都带来巨大的性能提升。通过极致的协同设计，这些巨大的性能提升还可以在模型训练和推理中实现出色的精度。流行开源LLM的NVFP4版本已广泛可用，使服务能够以更高的吞吐量和更低的每百万令牌成本运行这些模型。详细了解Rubin平台带来的重大架构飞跃（包括增强的NVFP4）如何实现AI训练和推理性能的新水平。FINISHED