CUDA系列-GPU算力GPU算力 GPU算力与 CUDA Core、Tensor Coer的数量和Boost Cloc

GPU算力与 CUDA Core、Tensor Coer的数量和Boost Clock成正比。Ampere架构GA100、GA102配置如下：

GA100:

包含8个GPC、12个NVLink
每个GPC里包含16个SM（Streaming Multiprocessor）单元，部分SM会被屏蔽
每个SM 包含4个processing block
每个processing block 包含： 16个INT32 单元，不支持 FP32 16个FP32 单元，不支持 INT32 8个FP64 单元 1个Tensor Core

GA102:

每个GPC里包含12个SM单元
每个SM 包含 4个 processing block
每个processing block 包含： 16个INT32|FP32 单元，既能支持 INT32，又能支持 FP32，但同时只支持一种 16个FP32 单元，不支持 INT32 1个Tensor Core

CUDA Core，一个时钟周期完成一次FFMA操作。

A100 FP32 TFLOPS: (6912 ∗ 2 + 3456 ∗ 4) ∗ 1410(Mhz) ∗ 2(mul, add) = 77.97TFLOPS

GA100，一个 FP32 单元可以拆分为两个FP16 使用，一个FP64单元可以拆分为 4 个FP16使用。部分SM被屏蔽，6912不是全部SM数。

A10 FP32 TFLOPS: （4608 * 2） ∗ 1695(Mhz) ∗ 2(mul, add) = 31.24TFLOPS

GA102，一个 FP32 单元可以拆分为两个 FP16 使用（INT32|FP32 单元不支持）

注意：

FFMA是衡量GPU算力的标杆之一，相当于MUL+ADD 最简单的SASS指令集：FFMA R2, R4, R2, R5，即R2=R4*R2+R5，通常称FFMA为操作码OpCode