模型训练场景5090和4090的算力比较

223 阅读2分钟

晨涧云(https://www.mornai.cn) AI算力平台最近上线了RTX 5090显卡,我们测试下英伟达这款最新的消费级旗舰和上一代RTX 4090在模型训练场景下性能差异多大?

之前使用 ResNet-50 模型比较过3090和4090的算力差异:

深度学习场景下显卡性能实测

这里是用同样的方法进行测试。

RTX 5090和RTX 4090参数对比

两张显卡的参数规格:

RTX 5090RTX 4090
架构BlackwellAda Lovelace
CUDA核心数21,76016,384
显存容量32 GB GDDR724 GB GDDR6X
显存带宽1792 GB/s1,008 GB/s
TDP功耗575W450W
FP32 算力104.8 TFLOPS82.6 TFLOPS
Tensor FP16 算力419 TFLOPS330 TFLOPS

5090使用最新的Blackwell架构,性能有了大幅提升:

  • 显存方面:32G的容量比4090增加8G,但也略显局促;显存带宽有大幅的提升
  • 算力方面:5090的算力比4090提升近30%
  • 相应的功耗也比4090高不少,要综合考虑高负荷工作时的耗电量

深度学习模型训练测试

晨涧云-算力市场 租用5090的显卡,注意因为5090必须基于 PyTorch 2.7 以上 + CUDA 12.8 以上的版本,所以选择镜像时需要选择对用的版本镜像。

还是选择基于Pytorch框架来训练ResNet-50模型,使用CIFAR-10数据集进行测试对比。

5090测试

ResNet50AI性能测试-5090-1.png

4090测试

ResNet50AI性能测试-4090-1.png

测试结果解释

使用了FP32和FP16混合训练精度,主要看训练批次比较大(显存和GPU利用率都较高的时候)的数据表现,看训练吞吐量的差异:

  • 精度FP32 表示使用单精度训练,FP16 表示使用混合精度训练
  • BatchSize:训练批次大小
  • Samples/s:每秒样本吞吐量
  • VRAM (MB) :平均显存使用量
  • GPU Util (%) :平均GPU利用率

从上图中主要看在GPU使用率比较高的场景下(如BatchSize=256),模型训练样本的吞吐速度比较;无论是单精度还是混合精度,RTX 5090的样本吞吐速度是RTX 4090的1.5倍左右

从测试结果,结合5090现在市面的价格而言,是很不错的一个选择,唯一不足的地方就是新的Blackwell架构必须使用 PyTorch 2.7 以上 + CUDA 12.8 以上的版本,对老项目不太友好。