做AI研发时,你是不是也遇到过这些难题:模型跑不起来,才发现显存不够;花大价钱买了GPU,推理速度却没达标?市面上GPU型号繁杂,到底哪款适合你的单卡任务?
别再盲目试错!针对LLM推理和图像 生 成 两大高频场景进行了深度实测,**用真实数据帮你理清选型思路,避开算力浪费的坑。
在AI 领域,硬件的选择往往决定了计算效率与最终效果。无论是科研人员训练模型,还是工程师部署推理任务,GPU 都是绕不开的核心算力资源。然而,市面上的NVIDIA GPU 型号众多,从消费级的 RTX 4090,到数据中心常见的 A800、H800,再到最新的 Blackwell 架构 B200,每一代产品在定位、性能和适用场景上都有很大差异。
本文的目的,并不是单纯地罗列规格参数,而是帮助用户在单卡任务的场景下,理解在做选择时需要关注的关键因素:算力、显存、性价比等。希望读完后,读者能结合自身任务需求,在选择卡型号时,做出更加理性和高效的选择。
基本信息
我们列举了部分常见GPU 卡的基本信息。主要涵盖单卡的计算性能、显存、架构、功率等信息。除了列举的卡信息,实际使用中,当需要使用多卡时,还会关注卡间的通信:同一台机器内部的卡之间通过 NVSwitch/NVLink 系统互联,不同机器的卡通过 IB/RoCE 网络通信。
一般而言,我们对两个指标会有额外关注:显存大小和计算性能(FLOPs)。显存大小决定了单卡能容纳的模型大小,计算性能决定了模型处理一个请求的延迟。
目前市面上常见NVIDIA GPU 主要包括三个代际,由老到新分别是:Ampere, Hopper 和 Blackwell。新代际往往具有新特性,并具有更高的计算性能。
-
Ampere 架构的主力卡型号有 A100、A800等,对应的同代际消费级 GPU 有 RTX 3090;
-
Hopper 架构的主力卡型号有 H100、H800、H200、H20 等,对应的同代际消费级 GPU 有 RTX 4090;
-
Blackwell 架构的主力卡型号有 B100、B200 等,对应的同代际消费级GPU 有 RTX 5090。
Figure1算力价格散点图(FP8/INT8)
横轴为算力T(FL)OPs,纵轴为 1 卡时的价格,圆的尺寸为显存大小
可以看到单纯从数值角度来看,计算能力(FLOPs)的角度,代际之间性能大幅提升:
-
5090 约为 4090 的 1.27 倍;
-
H800 约为 A800 的 3.17 倍;
-
B200 约为 A800 的 7.2 倍(FP8/FP16),考虑 FP4 时约为 A800 的 14.4 倍。
我们选取了最具代表性的GPU 罗列了关键参数如下表所示,表格中,4090/5090 均选取了目前推理框架普遍采用的 FP32 accumulate 对应的 FLOPs。
实验评测
在本文接下来的部分,我们选取了使用单卡场景最为常见的三款GPU ,4090D、A800 和 H800,对大语言模型和图像生成的典型任务,进行评测对比。更多卡型号、任务负载下的对比,可以联系我们获取详细信息。
这三款都是面向中国市场的削弱版本,但作为单卡使用,性能差异与对应原版(4090、A100、H100)差异不大:
-
4090D 相比于 4090 减少了部分 cuda core,降低了 25W 总功率,实测计算性能差异在 5% 左右;
-
A800 相比于 A100,主要对机器内多卡间的 NVLink 互联带宽进行了限制,从 600GB/s 降低为 400GB/s;
-
H800 相比于 H100,主要也是对机器内卡间互联带宽做了限制,从 900GB/s 降低为 400GB/s。
LLM serving 的性能评测
具体的测试方式上,我们使用cuda 基础镜像构建了适配 sglang 和 vllm 框架的环境,直接启动环境即可进行测试。分别使用 sglang 和 vllm 拉起模型服务,并使用 sglang 的 bench_serving 工具进行压测。推理服务的参数配置上,我们尽量使用默认参数,不开启 MTP 等优化策略。
测试主要关注如下指标:
- 单请求下的吞吐性能;
- 在6k tokens 输入长度 1k tokens 输出长度下,保持 TTFT < 2000ms 时,可以达到的峰值吞吐性能。
测试方式
本次测试使用的模型,我们选择openai/gpt-oss-20b 进行。它是 openai 时隔多年再次发布的两款开源模型之一,特别适合在端侧、消费级显卡等场景部署。该模型已经发布了一个多月,我们将使用 sglang / vllm 的最新发布版本进行性能测试:
-
vllm==0.10.2,发布于 2025.9.13;
-
sglang==0.5.2 (sgl-kernel==0.3.9.post2) ,发布于 2025.9.12。
结果分析
gpt-oss-20b 使用 MXFP4 量化,让它最低可以运行在 16GB 显存的设备上。对于具备 24GB 显存的 4090/4090D 而言,其默认显存分配如下,其中 kv-cache 部分可以通过参数配置灵活调整:
对应的关键场景吞吐性能如下表所示:
可以看到:
- 在单请求的场景,
(1)4090D 和 A800 的性能差异不大,猜测是由于 A800 cast 到了 FP16,而 4090D cast 到 FP8;
(2)H800 约为 4090D 和 A800 的 1.6 倍吞吐。
- 在并发请求的场景,
(1)得益于更大的显存,A800 可提供更高的吞吐(16%+),但是 A800 受到 FP16 的上限 312 TFLOPs 的限制,无法提供更高的吞吐;
(2)H800 可提供约 3 倍于 4090D 的总吞吐,主要由更高的算力贡献。
图像生成的性能评测
GPU 被广泛用于图像生成、视频生成、3D 生成等场景,它们的计算负载具有着很大的相似性。图像生成被广泛用于创意广告行业、设计等领域,目前各类内容平台已可看到大量 AI 生成的图片内容,在创意、设计工作中,其快速出图能力,也可有效提升团队的沟通、工作效率。
在单卡部署场景,图像生成模型可以部署并运行于价格低廉的消费级GPU 上,如 4090、5090 等。我们将选择 FLUX.1-dev 这一模型进行图像生成的实验,并对性能作对比分析。
测试方式
我们选择了black-forest-labs/FLUX.1-dev 进行评测,它是被社区广泛使用的开源图像生成模型,以在图像中稳定生成文字的能力而闻名。由于模型较大,需要约 34GB 显存运行,因此我们选择分别在如下配置进行试验:
-
使用原始模型进行基准测试:在A800 和 H800 上评测原版模型(BF16),在 4090D 开启 cpu-offload 评测原版模型做参考;
-
使用8-bit 版本模型进行对比测试:在4090D、H800上评测 FP8 版本的模型,在 A800 上评测 INT8 版本的模型,并作对比。
仍然使用4090D、A800 和 H800 单卡运行测试任务,我们将对单张图片的生成速度进行计时、对比。
模型推理选择最为直接的diffusers pipeline 方式。
结果分析
对单条样本的推理进行计时,得到结果如下表所示:
其中,BF16 对应原始版本 black-forest-labs/FLUX.1-dev,FP8 对应 diffusers 的量化版本diffusers/FLUX.1-dev-torchao-fp8 ,INT8 对应 diffusers/FLUX.1-dev-torchao-int8。
Diffusers 提供的 diffusers/FLUX.1-dev-torchao-fp8 的 text_encoder_2 有异常,看起来没有量化为正确的 FP8 格式,我们参照其说明重新量化了一个版本:/public/shared-resources/models/ebcloud/FLUX.1-dev-torchao-fp8**
从上边的实验结果可以看到:
-
8-bit 时,仍用 bfloat16 计算,性能受限于 16-bit 算力,A800 是 4090D 的 1.7 倍,H800 是 A800 的 1.6 倍;
-
16-bit 时,H800 是 A800 的 2.1 倍,4090 开启了 cpu-offload,不具备可比性;
-
使用8-bit checkpoint 时,可以一定程度提升 4090 的推理速度。
对于8-bit 量化版本的 checkpoint,在模型页面的说明中,diffusers 目前仍使用 BF16 进行计算,即参数存储为 8-bit,但是计算仍然是 16-bit。因此我们没有观察到 A800、H800 在 FP8/INT8 下的推理速度提升。
结论分析
综合以上信息,可以得到如下评测结论:
-
单卡LLM Serving 的场景:低并发下 4090 性价比最高,高并发下 H800 能提供最高的并发与吞吐性能;
-
单卡图像生成的场景:单位时间内可生成的图片数量:1 卡时 H800 = 2.1 卡时 A800 = 5.1 卡时 4090。
参考当前的基础价格假设,1 卡时的价格,对比关系大致为 H800:A800:4090=7:2:1。整体来看,当 4090 的显存能容纳模型时,选择 4090 总是一个不错的起点;随着对并发数、生成速度的要求提升,再逐步选择 A800、H800 进行尝试。
我们针对单卡可容纳的模型,整理了不同应用场景下,卡型号的选型推荐表格:
表格中,性能参考基于:**
- LLM Serving:6k token 输入,1k token 输出的样本下的并发**
- 图像生成:生成尺寸1024x1024,生成 50 step 下的速度**
同时我们提供了快速复现的环境,用户可使用预构建的镜像,无需额外的配置与资源下载,快速运行服务,并尝试目标模型在不同环境、压力下的性能。
实验复现说明
上述实验均基于英博云(www.ebcloud.com/chn_6spgmle… 平台完成,实验方法参见如下项目:
测试环境的拉起可参考README 中的描述,也可直接使用 README 中提及的镜像启动开发机进行评测。
此处我们整理了具体压测脚本,方便使用者快速复现。登入容器后直接执行对应命令启动服务,并在另外的终端执行本机压测即可。
实验环境的创建
测试环境的拉起,执行如下脚本即可,一般会在秒级拉起容器。下边的命令会根据资源规格申请一个4090 单卡容器,等待容器创建完成后,即可进入容器。
对应的,还有a800、h800 的 yaml 文件可以用于创建对应单卡 A800、H800 的测试环境。
LLM Serving 的复现脚本
1.启动推理服务:
2.功能测试:启动新的终端,登入到容器环境中,即可发起单次请求:
3.性能测试:使用sglang 的 bench_serving 进行压测:
图像生成的复现脚本
其中,run_flux.py 脚本的核心逻辑如下:
实验环境的清理
针对前边apply 创建的测试容器,分别执行如下命令清理创建的 pod、service 等。
AI 算力选型,从来不是“贵的就好”,而是“对的才值”。
为了让你少走弯路,我们不仅整理了清晰的选型表格,还开放了实测环境——用预构建的镜像,就能快速复现测试场景,亲自验证GPU性能。后续我们还会推出更多场景的测评,关注我们,获取更多AI算力干货,让每一份算力投入都能高效转化!
全部实验从www.ebcloud.com/chn_6spgmle… 设计实现