最新AI模型的规模和复杂性持续增长,对训练和推理所需的计算性能要求远超摩尔定律的跟进速度。为此,某机构进行了极致的协同设计,通过跨多芯片和大量软件的统一设计,实现了AI工厂性能和效率的代际大幅跃升。
低精度AI格式是提升计算性能和能效的关键。将超低精度数值的收益带到AI训练和推理中,同时保持高精度,需要在技术栈的每一层进行广泛的工程设计:涵盖格式创建、芯片实现、多库支持,并与生态系统紧密合作以部署新的训练方案和推理优化技术。从某机构Blackwell系列GPU开始开发并实现的NVFP4,提供了4位浮点精度带来的性能和能效优势,同时保持与高精度格式相当的准确率。
对于希望最大化AI训练和推理性能的用户,关于NVFP4有以下三点需要了解。
1. NVFP4 使Blackwell架构及未来的训练和推理性能实现巨大飞跃
某机构Blackwell Ultra GPU提供的峰值密集NVFP4吞吐量高达15 petaFLOPS——是同一GPU上FP8的3倍。这种增益不仅体现在峰值规格上,也体现在训练和推理任务的实际测量性能中。
对于推理,如近期一篇技术博客所示,在流行的671B参数混合专家模型DeepSeek-R1上,从FP8转向NVFP4后,在给定交互水平下,生成的令牌吞吐量得到了显著提升。吞吐量在给定令牌速率甚至更高令牌速率下都有增加,从而带来更好的用户体验。
[图1:在HGX B200上,FP8(无MTP)、FP8(带MTP)和NVFP4(带MTP)的吞吐量与交互性对比曲线,序列长度为8K/1K,聚合服务]
某机构最近还发布了NVFP4训练方案,将NVFP4显著的性能优势引入模型训练,使模型制作者能够更快、更低成本地训练AI。
[图2:在512-GPU和8-GPU规模下,Llama 3.1 405B预训练和Llama 2 70B LoRA微调的相对性能]
在最新版MLPerf训练基准套件中,多个某机构GB300 NVL72系统(总计512个Blackwell Ultra GPU)协同使用NVFP4精度,在64.6分钟内完成了Llama 3.1 405B预训练基准。这比上一轮使用FP8的512个Blackwell GPU(跨多个某机构GB200 NVL72系统)快1.9倍。
展望未来,某机构Rubin平台在训练和推理的NVFP4能力上实现了巨大飞跃,提供35 petaFLOPS的NVFP4训练计算能力和50 petaFLOPS的NVFP4 Transformer Engine推理计算能力。相比Blackwell,分别提升了3.5倍和5倍。
2. NVFP4 在行业基准测试中展现出卓越的准确率
要使MLPerf训练和推理的封闭组别提交结果有效,必须满足基准规定的精度要求。对于推理,响应必须达到特定精度阈值;对于训练,模型必须训练到特定的质量目标(即模型训练过程必须收敛)。
在最新版MLPerf训练中,某机构成功提交了在Blackwell和Blackwell Ultra GPU上使用NVFP4的所有大语言模型测试的封闭组别结果。同时,某机构在MLPerf推理中也使用NVFP4提交了涵盖多种模型和场景的结果,包括DeepSeek-R1、Llama 3.1 8B/405B和Llama 2 70B。某机构使用了NVFP4量化版本的模型,同时满足严格的基准要求。
[图3:DeepSeek-R1模型评估分数显示NVFP4精度与FP8基线精度高度匹配]
3. NVFP4 获得广泛且不断增长的生态系统支持
像某机构Model Optimizer、LLM Compressor和torch.ao这样的库,使开发者能够将以高精度训练的模型量化为NVFP4格式,并实现NVFP4 KV缓存以支持长上下文和大批量处理,同时保持精度。主流推理框架(包括某机构TensorRT-LLM、vLLM和SGLang)目前也支持以NVFP4格式运行模型,并提供NVFP4变体版本。例如,在HuggingFace上,开发者可以找到可部署的NVFP4版本,如Llama 3.3 70B、FLUX.2、DeepSeek-R1-0528、Kimi-K2-Thinking、Qwen3-235B-A22B和某机构Nemotron Nano。
生态系统也正在采用NVFP4来提高生产中多种模型的推理吞吐量。这些公司包括Black Forest Labs、Radical Numerics、Cognition和Red Hat。
Black Forest Labs与某机构合作,在Blackwell上扩展FLUX.2的NVFP4推理。Black Forest Labs联合创始人兼CEO表示:“通过叠加CUDA Graphs、torch.compile、NVFP4精度和TeaCache等优化,我们在单个B200上实现了高达6.3倍的加速——显著降低延迟,实现更高效的生产部署。”
Radical Numerics利用NVFP4加速科学世界模型的扩展。该公司联合创始人兼首席AI科学家表示:“与语言不同,科学数据推动我们超越经典的单模态自回归方案,需要极长上下文方法和强大的多模态融合。”他补充说,公司对使用低精度方案预训练和后训练其新架构“非常乐观”。
Cognition研究团队成员表示,通过在大规模强化学习中使用NVFP4,公司看到了“显著的延迟和吞吐量提升”。
Red Hat正在使用NVFP4量化扩展其LLM工作负载,为开发者提供接近基准的精度,同时保持在严格的内存预算内。通过在不显著损失质量的情况下大幅减少激活和权重的占用空间,NVFP4使Red Hat工程师能够利用现有基础设施,在更大的上下文窗口和更高并发下训练和服务最先进的LLM。
某机构Transformer Engine库包含了NVFP4训练方案的实现,像Megatron-Bridge这样的训练框架也为开发者提供了入门实现。某机构还持续创新并与生态系统合作,将NVFP4训练的性能和效率优势带给整个生态系统,为更快、更高效地训练更智能、更复杂的模型铺平道路。
了解更多
使用NVFP4可以在某机构Blackwell和某机构Rubin平台上都带来巨大的性能提升。通过极致的协同设计,这些巨大的性能提升还可以在模型训练和推理中实现出色的精度。流行开源LLM的NVFP4版本已广泛可用,使服务能够以更高的吞吐量和更低的每百万令牌成本运行这些模型。详细了解Rubin平台带来的重大架构飞跃(包括增强的NVFP4)如何实现AI训练和推理性能的新水平。FINISHED