GPU算力
GPU算力与 CUDA Core、Tensor Coer的数量和Boost Clock成正比。Ampere架构GA100、GA102配置如下:
GA100:
- 包含8个GPC、12个NVLink
- 每个GPC里包含16个SM(Streaming Multiprocessor)单元,部分SM会被屏蔽
- 每个SM 包含4个processing block
- 每个processing block 包含: 16个INT32 单元,不支持 FP32 16个FP32 单元,不支持 INT32 8个FP64 单元 1个Tensor Core
GA102:
- 每个GPC里包含12个SM单元
- 每个SM 包含 4个 processing block
- 每个processing block 包含: 16个INT32|FP32 单元,既能支持 INT32,又能支持 FP32,但同时只支持一种 16个FP32 单元,不支持 INT32 1个Tensor Core
CUDA Core算力计算
CUDA Core,一个时钟周期完成一次FFMA操作。
A100 FP32 TFLOPS: (6912 ∗ 2 + 3456 ∗ 4) ∗ 1410(Mhz) ∗ 2(mul, add) = 77.97TFLOPS
GA100,一个 FP32 单元可以拆分为两个FP16 使用,一个FP64单元可以拆分为 4 个FP16使用。 部分SM被屏蔽,6912不是全部SM数。
A10 FP32 TFLOPS: (4608 * 2) ∗ 1695(Mhz) ∗ 2(mul, add) = 31.24TFLOPS
GA102,一个 FP32 单元可以拆分为两个 FP16 使用(INT32|FP32 单元不支持)
注意:
FFMA是衡量GPU算力的标杆之一,相当于MUL+ADD 最简单的SASS指令集:FFMA R2, R4, R2, R5,即R2=R4*R2+R5,通常称FFMA为操作码OpCode