CUDA系列-GPU算力

187 阅读1分钟

GPU算力

GPU算力与 CUDA Core、Tensor Coer的数量和Boost Clock成正比。Ampere架构GA100、GA102配置如下:

GA100:

  • 包含8个GPC、12个NVLink
  • 每个GPC里包含16个SM(Streaming Multiprocessor)单元,部分SM会被屏蔽
  • 每个SM 包含4个processing block
  • 每个processing block 包含: 16个INT32 单元,不支持 FP32 16个FP32 单元,不支持 INT32 8个FP64 单元 1个Tensor Core

GA102:

  • 每个GPC里包含12个SM单元
  • 每个SM 包含 4个 processing block
  • 每个processing block 包含: 16个INT32|FP32 单元,既能支持 INT32,又能支持 FP32,但同时只支持一种 16个FP32 单元,不支持 INT32 1个Tensor Core

CUDA Core算力计算

CUDA Core,一个时钟周期完成一次FFMA操作。

A100 FP32 TFLOPS: (6912 ∗ 2 + 3456 ∗ 4) ∗ 1410(Mhz) ∗ 2(mul, add) = 77.97TFLOPS

GA100,一个 FP32 单元可以拆分为两个FP16 使用,一个FP64单元可以拆分为 4 个FP16使用。 部分SM被屏蔽,6912不是全部SM数。

A10 FP32 TFLOPS: (4608 * 2) ∗ 1695(Mhz) ∗ 2(mul, add) = 31.24TFLOPS

GA102,一个 FP32 单元可以拆分为两个 FP16 使用(INT32|FP32 单元不支持)

注意:

FFMA是衡量GPU算力的标杆之一,相当于MUL+ADD 最简单的SASS指令集:FFMA R2, R4, R2, R5,即R2=R4*R2+R5,通常称FFMA为操作码OpCode

参考: blog.csdn.net/IsayIwant/a…