租GPU还是买GPU?一张表帮你算清楚成本
前言
做IDC之后,客户问得最多的问题之一:
"我是租GPU还是自己买一台?"
以前我都是凭感觉推荐,觉得长期用就买、短期用就租。后来发现这个判断太粗糙了——有客户买了GPU结果利用率只有20%,白交着托管费;也有客户租了半年花的钱都够买一台了。
今天把这笔账算清楚,精确到每一项成本。看完之后你对着自己的情况套一遍,就知道该怎么选了。
先搞清楚一个关键指标:GPU利用率
做决定之前,先算一个数字:
GPU利用率 = 每天实际跑计算的时间 / 24小时
注意,这里的"实际跑计算"不包括等待数据加载、调试代码、GPU空闲挂机的时间。就是GPU确实在干活的时间占比。
这个数字直接决定了租和买的盈亏平衡点。后面会用到。
租用成本:拆开每一项算
云租用价格参考
以主流云平台的参考价格为例(2024年国内市场,按需实例):
| GPU型号 | 按需价格(元/卡/小时) | 包月价格参考(元/卡/月) |
|---|---|---|
| T4 16GB | 3-5 | 1,500-2,500 |
| V100 32GB | 8-12 | 4,000-6,000 |
| A100 40GB | 12-18 | 6,000-10,000 |
| A100 80GB | 18-25 | 9,000-14,000 |
| H100 SXM | 35-50 | 18,000-28,000 |
| H20 96GB | 15-22 | 7,000-12,000 |
不同平台、不同地区、不同时段价格差异较大,以上仅为量级参考。
竞价实例能便宜多少
大部分云平台都提供竞价/Spot实例,价格通常是按需的30%-50%:
| GPU型号 | 按需价格 | 竞价价格 | 折扣 |
|---|---|---|---|
| A100 80GB | 20元/小时 | 8-10元/小时 | 50-60% |
| H100 SXM | 45元/小时 | 18-22元/小时 | 50-60% |
但竞价实例有被中断的风险(平台资源紧张时会回收)。如果训练任务支持断点续训,用竞价实例非常划算。如果是在线推理服务,不太适合用竞价。
租用的隐性成本
很多人只算"GPU租用费",忽略了其他成本:
总租用成本 = GPU租用费 + 存储费 + 网络流量费 + 闲置浪费
存储费: 你的训练数据、模型权重、checkpoint都要存。云平台的高性能存储通常不便宜,一个月几百到几千不等。
网络流量费: 往GPU实例上传数据、下载模型,跨区流量要收费。大模型动辄几十GB,频繁传输会有成本。
闲置浪费: 这是最大的隐性成本。GPU从开机就计费,包括你调试代码、等数据加载、甚至忘了关机的时间。
一个真实的教训:
一个团队租了4张A100做模型微调,报价18元/卡/小时,预估跑3天。结果实际跑了5天(调参、debug、数据预处理),花了8640元,比预算多了67%。
自建成本:比你想的复杂
硬件采购
以两张主流型号为例(2024年国内市场参考价):
| 方案 | 配置 | 参考采购价 |
|---|---|---|
| 方案A | 2×A100 80GB SXM + 双路CPU + 512GB内存 + NVMe | 25-35万元 |
| 方案B | 2×H100 SXM + 双路CPU + 1TB内存 + NVMe | 55-75万元 |
| 方案C | 8×A100 80GB SXM + 双路CPU + 1TB内存 + NVMe | 80-120万元 |
| 方案D | 8×H100 SXM + 双路CPU + 2TB内存 + NVMe | 180-250万元 |
价格受市场供需影响波动较大,GPU紧俏时可能溢价20-50%。
托管费用
GPU服务器功耗很高,大部分机房托管不了或者收费很贵:
一台2卡A100服务器:
功耗:约800-1200W
月电费:0.8kW × 24h × 30天 × 1元/度 ≈ 576元
一台8卡H100服务器:
功耗:约5000-6000W
月电费:5.5kW × 24h × 30天 × 1元/度 ≈ 3,960元
加上机柜租金和网络:
| 托管项 | 2卡A100 | 8卡H100 |
|---|---|---|
| 电费 | ~600元/月 | ~4,000元/月 |
| 机柜租金 | 800-1,500元/月 | 2,000-4,000元/月(高功率机柜) |
| 网络带宽 | 500-1,000元/月 | 1,000-2,000元/月 |
| 托管合计 | ~2,000-3,000元/月 | ~7,000-10,000元/月 |
注意:8卡H100需要高功率机柜(6kW以上),不是所有机房都支持。支持高功率GPU托管的机房,机柜租金通常更贵。
运维成本
硬件自建意味着你要自己管:
- 硬件故障(GPU卡坏、电源故障、风扇异常)→ 需要有人去机房换
- 系统维护(驱动升级、CUDA版本兼容)→ 需要有人搞
- 网络管理(带宽监控、防火墙配置)→ 需要有人盯
如果团队里没有专职运维,要么找IDC服务商代运维(通常1000-3000元/月),要么开发兼着搞(隐性人力成本)。
折旧
GPU硬件是有使用寿命的,一般按3年折旧:
硬件采购30万 ÷ 36个月 ≈ 8,333元/月
GPU迭代很快,3年后的硬件性能可能落后一两代。实际残值可能只有采购价的20-30%。
一张表算清楚
以A100 80GB为例,按不同使用场景对比:
场景一:长期7×24在线推理
假设GPU利用率80%(大部分时间在处理推理请求)。
租用成本:
云实例费用:20元/小时 × 24小时 × 30天 = 14,400元/月
存储+网络:约500元/月
合计:约14,900元/月
自建成本(2卡方案,采购30万):
硬件折旧:30万 ÷ 36个月 = 8,333元/月
托管费(电+机柜+网络):约2,500元/月
运维:约1,500元/月(代运维)
合计:约12,333元/月
自建每月省约2,500元,3年省约9万。这种场景自建划算。
场景二:白天开发调试,晚上跑训练
假设GPU利用率30%(大部分时间在写代码、调参、等数据)。
租用成本:
按需实例:20元/小时 × 8小时 × 30天 = 4,800元/月
竞价实例(夜间训练):8元/小时 × 8小时 × 30天 = 1,920元/月
合计:约6,720元/月
(不用的时候关机,只在用的时候付费)
自建成本:
硬件折旧:8,333元/月(不管用不用都在折旧)
托管费:约2,500元/月(不管用不用都要付)
合计:约10,833元/月
租用每月省约4,000元。利用率低的时候自建很亏,硬件和托管费是固定的。
场景三:短期项目,跑3个月
假设需要4张A100做模型训练,3个月后项目结束。
租用成本:
云实例:20元/小时 × 4卡 × 16小时 × 90天 = 115,200元
(每天用16小时,竞价和按需混合)
打7折预估:约80,000元
自建成本:
硬件采购:约60万元(4卡A100服务器)
托管3个月:约7,500元
3个月后硬件怎么处理?二手折价50-70%
实际净投入:60万 × 40% + 7,500 ≈ 247,500元
短期项目租用成本只有自建的三分之一。而且自建还有硬件处置的麻烦。
决策流程图
把上面的分析总结成一个决策流程:
第一步:你的GPU要跑多久?
│
├── 短期(< 6个月)→ 租
│ 不用讨论了,直接租
│
├── 中期(6-12个月)→ 看利用率
│ ├── 利用率 > 50% → 可以考虑买
│ └── 利用率 < 50% → 继续租
│
└── 长期(> 12个月)→ 看利用率
├── 利用率 > 60% → 买更划算
└── 利用率 < 40% → 租更划算
└── 中间地带 → 看下面的补充因素
补充因素(倾向买):
□ 数据安全要求高,不能出机房
□ 团队有运维能力
□ 能找到支持高功率托管的机房
□ 现金流充裕,能承受前期投入
补充因素(倾向租):
□ 业务量不确定,可能随时调整
□ 团队没有运维能力
□ 需要快速上线,等不了采购周期
□ 现金流紧张,希望按月付费
几个容易忽略的因素
采购周期
买GPU不是今天下单明天到货。从选型、询价、下单、到货、上架、调试,通常需要2-4周。如果GPU市场紧缺(比如大模型热潮期间),可能要等1-2个月。
租用是分钟级开通。注册账号、选配置、开机,10分钟就能用。
如果项目急着上线,先租着,同时采购。到货后再迁过来。
二手GPU的风险
有些客户想省钱,考虑买二手GPU。需要注意:
- 二手A100可能是矿卡,长期满负荷运行,寿命堪忧
- 没有官方保修,坏了只能自己换
- 无法确认实际使用时长和健康状态
# 如果能接触到实物,查一下GPU使用时长
nvidia-smi -q | grep -i "gpu\|memory\|power\|temperature"
# 查GPU序列号确认是否在保
nvidia-smi -q | grep "Serial"
不建议在核心业务上用二手GPU。开发测试环境可以用。
跨区域部署
如果你的用户在全国各地,自建GPU通常只在一个机房。用户跨网访问会有延迟。
租用的好处是可以选多区域部署,用户就近访问。
这对推理服务的用户体验影响很大。
一个真实客户的决策过程
一个做AI应用的创业团队,情况如下:
- 模型:13B,INT8量化,需要约17GB显存
- 日均调用量:50万次
- 并发峰值:200 QPS
- 用户分布:全国
第一版方案:租用
4张A100 80GB云实例,月费约5万元。
运行3个月,花了15万。发现GPU利用率只有25%(大部分时间在等请求),但高峰期必须开着。
第二版方案:混合
低峰期缩容到1张A100,高峰期扩容到4张。
月费降到约2.5万。但自动扩缩容有延迟,高峰期偶尔有请求排队。
第三版方案:自建
买了2张A100 80GB服务器(够处理日常流量),托管在BGP机房。
月固定成本约1.3万(折旧+托管+运维)。高峰期通过弹性云实例扩容。
月总成本降到约1.8万,比纯租用省了60%多。
关键决策点: 当确定这个服务要长期运行(>12个月)且日常流量稳定后,自建基础算力+弹性扩容是最优解。
总结
| 因素 | 倾向租 | 倾向买 |
|---|---|---|
| 使用时长 | < 6个月 | > 12个月 |
| GPU利用率 | < 40% | > 60% |
| 业务确定性 | 不确定,随时可能变 | 稳定,长期运行 |
| 运维能力 | 没有 | 有 |
| 现金流 | 紧张,希望按月付 | 充裕,能承受前期投入 |
| 数据安全 | 一般要求 | 不能出机房 |
| 上线速度 | 急,等不了采购 | 不急,可以等2-4周 |
没有绝对正确的答案。核心就是算清楚:你的GPU每天真正干活的时间有多少。 利用率高的场景自建划算,利用率低的场景租用灵活。
折中方案也值得考虑:自建基础算力处理日常流量,高峰期用云实例弹性扩容。兼顾成本和弹性。
下一篇:大模型API的Token定价到底怎么算的?拆解各家价格 —— 把Token计费的底层逻辑讲清楚,帮你算明白每个月的API费用花在了哪里。
觉得有用点个赞收藏一下,有问题评论区聊。