选GPU不纠结！EB实测教你挑对卡，这份选型指南请收好做AI研发时，你是不是也遇到过这些难题：模型跑不起来，才发现显存不

做AI研发时，你是不是也遇到过这些难题：模型跑不起来，才发现显存不够；花大价钱买了GPU，推理速度却没达标？市面上GPU型号繁杂，到底哪款适合你的单卡任务？

别再盲目试错！针对LLM推理和图像 生成 两大高频场景进行了深度实测，**用真实数据帮你理清选型思路，避开算力浪费的坑。

在AI 领域，硬件的选择往往决定了计算效率与最终效果。无论是科研人员训练模型，还是工程师部署推理任务，GPU 都是绕不开的核心算力资源。然而，市面上的NVIDIA GPU 型号众多，从消费级的 RTX 4090，到数据中心常见的 A800、H800，再到最新的 Blackwell 架构 B200，每一代产品在定位、性能和适用场景上都有很大差异。

本文的目的，并不是单纯地罗列规格参数，而是帮助用户在单卡任务的场景下，理解在做选择时需要关注的关键因素：算力、显存、性价比等。希望读完后，读者能结合自身任务需求，在选择卡型号时，做出更加理性和高效的选择。

基本信息

我们列举了部分常见GPU 卡的基本信息。主要涵盖单卡的计算性能、显存、架构、功率等信息。除了列举的卡信息，实际使用中，当需要使用多卡时，还会关注卡间的通信：同一台机器内部的卡之间通过 NVSwitch/NVLink 系统互联，不同机器的卡通过 IB/RoCE 网络通信。

一般而言，我们对两个指标会有额外关注：显存大小和计算性能（FLOPs）。显存大小决定了单卡能容纳的模型大小，计算性能决定了模型处理一个请求的延迟。

目前市面上常见NVIDIA GPU 主要包括三个代际，由老到新分别是：Ampere, Hopper 和 Blackwell。新代际往往具有新特性，并具有更高的计算性能。

Ampere 架构的主力卡型号有 A100、A800等，对应的同代际消费级 GPU 有 RTX 3090；
Hopper 架构的主力卡型号有 H100、H800、H200、H20 等，对应的同代际消费级 GPU 有 RTX 4090；
Blackwell 架构的主力卡型号有 B100、B200 等，对应的同代际消费级GPU 有 RTX 5090。

Figure1算力价格散点图（FP8/INT8）
横轴为算力T(FL)OPs，纵轴为 1 卡时的价格，圆的尺寸为显存大小

可以看到单纯从数值角度来看，计算能力（FLOPs）的角度，代际之间性能大幅提升：

5090 约为 4090 的 1.27 倍；
H800 约为 A800 的 3.17 倍；
B200 约为 A800 的 7.2 倍（FP8/FP16），考虑 FP4 时约为 A800 的 14.4 倍。

我们选取了最具代表性的GPU 罗列了关键参数如下表所示，表格中，4090/5090 均选取了目前推理框架普遍采用的 FP32 accumulate 对应的 FLOPs。

实验评测

在本文接下来的部分，我们选取了使用单卡场景最为常见的三款GPU ，4090D、A800 和 H800，对大语言模型和图像生成的典型任务，进行评测对比。更多卡型号、任务负载下的对比，可以联系我们获取详细信息。

这三款都是面向中国市场的削弱版本，但作为单卡使用，性能差异与对应原版（4090、A100、H100）差异不大：

4090D 相比于 4090 减少了部分 cuda core，降低了 25W 总功率，实测计算性能差异在 5% 左右；
A800 相比于 A100，主要对机器内多卡间的 NVLink 互联带宽进行了限制，从 600GB/s 降低为 400GB/s；
H800 相比于 H100，主要也是对机器内卡间互联带宽做了限制，从 900GB/s 降低为 400GB/s。

LLM serving 的性能评测

具体的测试方式上，我们使用cuda 基础镜像构建了适配 sglang 和 vllm 框架的环境，直接启动环境即可进行测试。分别使用 sglang 和 vllm 拉起模型服务，并使用 sglang 的 bench_serving 工具进行压测。推理服务的参数配置上，我们尽量使用默认参数，不开启 MTP 等优化策略。

测试主要关注如下指标：

单请求下的吞吐性能；
在6k tokens 输入长度 1k tokens 输出长度下，保持 TTFT < 2000ms 时，可以达到的峰值吞吐性能。

测试方式

本次测试使用的模型，我们选择openai/gpt-oss-20b 进行。它是 openai 时隔多年再次发布的两款开源模型之一，特别适合在端侧、消费级显卡等场景部署。该模型已经发布了一个多月，我们将使用 sglang / vllm 的最新发布版本进行性能测试：

vllm==0.10.2，发布于 2025.9.13；
sglang==0.5.2 (sgl-kernel==0.3.9.post2) ，发布于 2025.9.12。

结果分析

gpt-oss-20b 使用 MXFP4 量化，让它最低可以运行在 16GB 显存的设备上。对于具备 24GB 显存的 4090/4090D 而言，其默认显存分配如下，其中 kv-cache 部分可以通过参数配置灵活调整：

对应的关键场景吞吐性能如下表所示：

可以看到：

在单请求的场景，

（1）4090D 和 A800 的性能差异不大，猜测是由于 A800 cast 到了 FP16，而 4090D cast 到 FP8；

（2）H800 约为 4090D 和 A800 的 1.6 倍吞吐。

在并发请求的场景，

（1）得益于更大的显存，A800 可提供更高的吞吐（16%+），但是 A800 受到 FP16 的上限 312 TFLOPs 的限制，无法提供更高的吞吐；

（2）H800 可提供约 3 倍于 4090D 的总吞吐，主要由更高的算力贡献。

图像生成的性能评测

GPU 被广泛用于图像生成、视频生成、3D 生成等场景，它们的计算负载具有着很大的相似性。图像生成被广泛用于创意广告行业、设计等领域，目前各类内容平台已可看到大量 AI 生成的图片内容，在创意、设计工作中，其快速出图能力，也可有效提升团队的沟通、工作效率。

在单卡部署场景，图像生成模型可以部署并运行于价格低廉的消费级GPU 上，如 4090、5090 等。我们将选择 FLUX.1-dev 这一模型进行图像生成的实验，并对性能作对比分析。

测试方式

我们选择了black-forest-labs/FLUX.1-dev 进行评测，它是被社区广泛使用的开源图像生成模型，以在图像中稳定生成文字的能力而闻名。由于模型较大，需要约 34GB 显存运行，因此我们选择分别在如下配置进行试验：

使用原始模型进行基准测试：在A800 和 H800 上评测原版模型（BF16），在 4090D 开启 cpu-offload 评测原版模型做参考；
使用8-bit 版本模型进行对比测试：在4090D、H800上评测 FP8 版本的模型，在 A800 上评测 INT8 版本的模型，并作对比。

仍然使用4090D、A800 和 H800 单卡运行测试任务，我们将对单张图片的生成速度进行计时、对比。

模型推理选择最为直接的diffusers pipeline 方式。

结果分析

对单条样本的推理进行计时，得到结果如下表所示：

其中，BF16 对应原始版本 black-forest-labs/FLUX.1-dev，FP8 对应 diffusers 的量化版本diffusers/FLUX.1-dev-torchao-fp8 ，INT8 对应 diffusers/FLUX.1-dev-torchao-int8。

Diffusers 提供的 diffusers/FLUX.1-dev-torchao-fp8 的 text_encoder_2 有异常，看起来没有量化为正确的 FP8 格式，我们参照其说明重新量化了一个版本：/public/shared-resources/models/ebcloud/FLUX.1-dev-torchao-fp8**

从上边的实验结果可以看到：

8-bit 时，仍用 bfloat16 计算，性能受限于 16-bit 算力，A800 是 4090D 的 1.7 倍，H800 是 A800 的 1.6 倍；
16-bit 时，H800 是 A800 的 2.1 倍，4090 开启了 cpu-offload，不具备可比性；
使用8-bit checkpoint 时，可以一定程度提升 4090 的推理速度。

对于8-bit 量化版本的 checkpoint，在模型页面的说明中，diffusers 目前仍使用 BF16 进行计算，即参数存储为 8-bit，但是计算仍然是 16-bit。因此我们没有观察到 A800、H800 在 FP8/INT8 下的推理速度提升。