租GPU还是买GPU?一张表帮你算清楚成本

27 阅读11分钟

租GPU还是买GPU?一张表帮你算清楚成本


前言

做IDC之后,客户问得最多的问题之一:

"我是租GPU还是自己买一台?"

以前我都是凭感觉推荐,觉得长期用就买、短期用就租。后来发现这个判断太粗糙了——有客户买了GPU结果利用率只有20%,白交着托管费;也有客户租了半年花的钱都够买一台了。

今天把这笔账算清楚,精确到每一项成本。看完之后你对着自己的情况套一遍,就知道该怎么选了。


先搞清楚一个关键指标:GPU利用率

做决定之前,先算一个数字:

GPU利用率 = 每天实际跑计算的时间 / 24小时

注意,这里的"实际跑计算"不包括等待数据加载、调试代码、GPU空闲挂机的时间。就是GPU确实在干活的时间占比。

这个数字直接决定了租和买的盈亏平衡点。后面会用到。


租用成本:拆开每一项算

云租用价格参考

以主流云平台的参考价格为例(2024年国内市场,按需实例):

GPU型号按需价格(元/卡/小时)包月价格参考(元/卡/月)
T4 16GB3-51,500-2,500
V100 32GB8-124,000-6,000
A100 40GB12-186,000-10,000
A100 80GB18-259,000-14,000
H100 SXM35-5018,000-28,000
H20 96GB15-227,000-12,000

不同平台、不同地区、不同时段价格差异较大,以上仅为量级参考。

竞价实例能便宜多少

大部分云平台都提供竞价/Spot实例,价格通常是按需的30%-50%:

GPU型号按需价格竞价价格折扣
A100 80GB20元/小时8-10元/小时50-60%
H100 SXM45元/小时18-22元/小时50-60%

但竞价实例有被中断的风险(平台资源紧张时会回收)。如果训练任务支持断点续训,用竞价实例非常划算。如果是在线推理服务,不太适合用竞价。

租用的隐性成本

很多人只算"GPU租用费",忽略了其他成本:

总租用成本 = GPU租用费 + 存储费 + 网络流量费 + 闲置浪费

存储费: 你的训练数据、模型权重、checkpoint都要存。云平台的高性能存储通常不便宜,一个月几百到几千不等。

网络流量费: 往GPU实例上传数据、下载模型,跨区流量要收费。大模型动辄几十GB,频繁传输会有成本。

闲置浪费: 这是最大的隐性成本。GPU从开机就计费,包括你调试代码、等数据加载、甚至忘了关机的时间。

一个真实的教训:

一个团队租了4张A100做模型微调,报价18元/卡/小时,预估跑3天。结果实际跑了5天(调参、debug、数据预处理),花了8640元,比预算多了67%。


自建成本:比你想的复杂

硬件采购

以两张主流型号为例(2024年国内市场参考价):

方案配置参考采购价
方案A2×A100 80GB SXM + 双路CPU + 512GB内存 + NVMe25-35万元
方案B2×H100 SXM + 双路CPU + 1TB内存 + NVMe55-75万元
方案C8×A100 80GB SXM + 双路CPU + 1TB内存 + NVMe80-120万元
方案D8×H100 SXM + 双路CPU + 2TB内存 + NVMe180-250万元

价格受市场供需影响波动较大,GPU紧俏时可能溢价20-50%。

托管费用

GPU服务器功耗很高,大部分机房托管不了或者收费很贵:

一台2卡A100服务器:
  功耗:约800-1200W
  月电费:0.8kW × 24h × 30天 × 1元/度 ≈ 576元
  
一台8卡H100服务器:
  功耗:约5000-6000W
  月电费:5.5kW × 24h × 30天 × 1元/度 ≈ 3,960元

加上机柜租金和网络:

托管项2卡A1008卡H100
电费~600元/月~4,000元/月
机柜租金800-1,500元/月2,000-4,000元/月(高功率机柜)
网络带宽500-1,000元/月1,000-2,000元/月
托管合计~2,000-3,000元/月~7,000-10,000元/月

注意:8卡H100需要高功率机柜(6kW以上),不是所有机房都支持。支持高功率GPU托管的机房,机柜租金通常更贵。

运维成本

硬件自建意味着你要自己管:

  • 硬件故障(GPU卡坏、电源故障、风扇异常)→ 需要有人去机房换
  • 系统维护(驱动升级、CUDA版本兼容)→ 需要有人搞
  • 网络管理(带宽监控、防火墙配置)→ 需要有人盯

如果团队里没有专职运维,要么找IDC服务商代运维(通常1000-3000元/月),要么开发兼着搞(隐性人力成本)。

折旧

GPU硬件是有使用寿命的,一般按3年折旧:

硬件采购30万 ÷ 36个月 ≈ 8,333元/月

GPU迭代很快,3年后的硬件性能可能落后一两代。实际残值可能只有采购价的20-30%。


一张表算清楚

以A100 80GB为例,按不同使用场景对比:

场景一:长期7×24在线推理

假设GPU利用率80%(大部分时间在处理推理请求)。

租用成本:
  云实例费用:20元/小时 × 24小时 × 30天 = 14,400元/月
  存储+网络:约500元/月
  合计:约14,900元/月

自建成本(2卡方案,采购30万):
  硬件折旧:30万 ÷ 36个月 = 8,333元/月
  托管费(电+机柜+网络):约2,500元/月
  运维:约1,500元/月(代运维)
  合计:约12,333元/月

自建每月省约2,500元,3年省约9万。这种场景自建划算。

场景二:白天开发调试,晚上跑训练

假设GPU利用率30%(大部分时间在写代码、调参、等数据)。

租用成本:
  按需实例:20元/小时 × 8小时 × 30天 = 4,800元/月
  竞价实例(夜间训练):8元/小时 × 8小时 × 30天 = 1,920元/月
  合计:约6,720元/月
  (不用的时候关机,只在用的时候付费)

自建成本:
  硬件折旧:8,333元/月(不管用不用都在折旧)
  托管费:约2,500元/月(不管用不用都要付)
  合计:约10,833元/月

租用每月省约4,000元。利用率低的时候自建很亏,硬件和托管费是固定的。

场景三:短期项目,跑3个月

假设需要4张A100做模型训练,3个月后项目结束。

租用成本:
  云实例:20元/小时 × 4卡 × 16小时 × 90天 = 115,200元
  (每天用16小时,竞价和按需混合)
  打7折预估:约80,000元

自建成本:
  硬件采购:约60万元(4卡A100服务器)
  托管3个月:约7,5003个月后硬件怎么处理?二手折价50-70%
  实际净投入:60万 × 40% + 7,500 ≈ 247,500元

短期项目租用成本只有自建的三分之一。而且自建还有硬件处置的麻烦。


决策流程图

把上面的分析总结成一个决策流程:

第一步:你的GPU要跑多久?
│
├── 短期(< 6个月)→ 租
│   不用讨论了,直接租
│
├── 中期(6-12个月)→ 看利用率
│   ├── 利用率 > 50% → 可以考虑买
│   └── 利用率 < 50% → 继续租
│
└── 长期(> 12个月)→ 看利用率
    ├── 利用率 > 60% → 买更划算
    └── 利用率 < 40% → 租更划算
    └── 中间地带 → 看下面的补充因素
补充因素(倾向买):
  □ 数据安全要求高,不能出机房
  □ 团队有运维能力
  □ 能找到支持高功率托管的机房
  □ 现金流充裕,能承受前期投入

补充因素(倾向租):
  □ 业务量不确定,可能随时调整
  □ 团队没有运维能力
  □ 需要快速上线,等不了采购周期
  □ 现金流紧张,希望按月付费

几个容易忽略的因素

采购周期

买GPU不是今天下单明天到货。从选型、询价、下单、到货、上架、调试,通常需要2-4周。如果GPU市场紧缺(比如大模型热潮期间),可能要等1-2个月。

租用是分钟级开通。注册账号、选配置、开机,10分钟就能用。

如果项目急着上线,先租着,同时采购。到货后再迁过来。

二手GPU的风险

有些客户想省钱,考虑买二手GPU。需要注意:

  • 二手A100可能是矿卡,长期满负荷运行,寿命堪忧
  • 没有官方保修,坏了只能自己换
  • 无法确认实际使用时长和健康状态
# 如果能接触到实物,查一下GPU使用时长
nvidia-smi -q | grep -i "gpu\|memory\|power\|temperature"

# 查GPU序列号确认是否在保
nvidia-smi -q | grep "Serial"

不建议在核心业务上用二手GPU。开发测试环境可以用。

跨区域部署

如果你的用户在全国各地,自建GPU通常只在一个机房。用户跨网访问会有延迟。

租用的好处是可以选多区域部署,用户就近访问。

这对推理服务的用户体验影响很大。


一个真实客户的决策过程

一个做AI应用的创业团队,情况如下:

  • 模型:13B,INT8量化,需要约17GB显存
  • 日均调用量:50万次
  • 并发峰值:200 QPS
  • 用户分布:全国

第一版方案:租用

4张A100 80GB云实例,月费约5万元。

运行3个月,花了15万。发现GPU利用率只有25%(大部分时间在等请求),但高峰期必须开着。

第二版方案:混合

低峰期缩容到1张A100,高峰期扩容到4张。

月费降到约2.5万。但自动扩缩容有延迟,高峰期偶尔有请求排队。

第三版方案:自建

买了2张A100 80GB服务器(够处理日常流量),托管在BGP机房。

月固定成本约1.3万(折旧+托管+运维)。高峰期通过弹性云实例扩容。

月总成本降到约1.8万,比纯租用省了60%多。

关键决策点: 当确定这个服务要长期运行(>12个月)且日常流量稳定后,自建基础算力+弹性扩容是最优解。


总结

因素倾向租倾向买
使用时长< 6个月> 12个月
GPU利用率< 40%> 60%
业务确定性不确定,随时可能变稳定,长期运行
运维能力没有
现金流紧张,希望按月付充裕,能承受前期投入
数据安全一般要求不能出机房
上线速度急,等不了采购不急,可以等2-4周

没有绝对正确的答案。核心就是算清楚:你的GPU每天真正干活的时间有多少。 利用率高的场景自建划算,利用率低的场景租用灵活。

折中方案也值得考虑:自建基础算力处理日常流量,高峰期用云实例弹性扩容。兼顾成本和弹性。


下一篇:大模型API的Token定价到底怎么算的?拆解各家价格 —— 把Token计费的底层逻辑讲清楚,帮你算明白每个月的API费用花在了哪里。

觉得有用点个赞收藏一下,有问题评论区聊。