2025 年国内 GPU 算力市场复盘：增长、回调与新的分层2025年国内GPU算力租赁从“抢卡”转向“拼交付”。价格雪

2025 年，如果还只盯着“每张卡每小时多少钱”，很容易在真实项目里吃亏。国内 GPU 算力租赁的核心矛盾变了：不再是“有没有卡”，而是“能不能交付”。算力能买到，但把训练或推理稳定跑起来、把账单和风险压住，才是难点。

市场规模继续变大，甚至冲破千亿关口。与此同时，价格大幅下滑，“增收不增利”开始普遍化。竞争焦点也从资源供给转向技术整合、生态与服务能力。这一年更像分水岭：从“量”走向“质”。

数字背后的真实故事

规模：增长还在，但结构在变

2024 年国内智能算力租赁规模约 377 EFlops（FP16），同比增长 88.5%。
进入 2025 年，市场规模继续上升，出现“突破 500 亿元、同比约 68%”的说法；也有更激进预测，认为智能算力总规模可到 1037.3 EFlops，对应市场规模超过 2100 亿元。
全球维度上，GPU 算力租赁市场预计从 2024 年约 59.12 亿美元，以约 21.4% 的年复合增速增长到 2031 年 236.2 亿美元。中国仍是关键增量。
未来三年（2025–2027），智能算力租赁复合增速仍可能维持在 50% 左右，2027 年或超 1300 EFlops。

这些数字的共同点是：需求旺盛，增长还在。但增长方式变了，市场开始更重视“有效算力”。

价格：雪崩式回调

2025 年最醒目的变化是“价格雪崩”。早期受供给紧张与大模型竞赛影响，价格被推到高位。中国市场 H100 的小时租赁价一度接近 13 美元（约 90 多元人民币）。

但到 2025 年，回调非常明显：

H100 价格降至约 5 美元/小时（约 35 元人民币）。全球均价也从年初约 5 美元降至 2.4 美元，跌幅超过 70%。
主流 AI 服务器（如 A800）两年内降幅超过 50%。
2025 年中，市场上常见的实际报价区间（按小时）大致是：
- H100（80GB）：15–20 元
- A100（40GB）：3–5 元
- RTX 4090：1.7–2.0 元（部分平台按量更低）
- 国产昇腾等：推理场景性价比更突出

价格下来的原因很“工程化”，不玄学：

新架构上市带来单位算力成本下降
地方政府、央企和互联网巨头自建智算中心加速，闲置产能释放
高效开源模型降低训练门槛
云厂与平台打价格战抢份额

利润：需求旺，钱却不好赚

需求很强，但利润压力更强。2025 年第三季度，A 股相关概念公司里，超过一半毛利率同比下滑。“增收不增利”成了常态。原因也直接：电力、合规等成本上升，售价又在跌，双向挤压。

市场到底在卖什么：三种形态的算力

1）整机/裸金属：偏训练的“硬交付”

典型客户是长时间占用、对性能上限敏感的训练团队。优点是干扰少，网络、存储、驱动版本可以固定。缺点也明显：交付周期长，硬件故障或链路波动时，对运维能力要求更高。

2）云上 GPU 实例：偏开发与弹性

适合快速验证、弹性推理、短周期训练。开通快，工具链齐。但邻居噪声、磁盘吞吐和网络抖动会影响训练效率，跨地域数据也更复杂。

3）托管推理/平台化：偏业务上线

你买的不是“几张卡”，而是 QPS、延迟和可用性。问题在于：预算控制、限流、灰度如果没工程化，账单可能很快失控。

到 2025 年底，一个趋势越来越清楚：算力从资源变商品，再从商品变服务。

供给侧：多代同堂，地域分化，交付开始溢价

型号分裂更明显

高端训练卡仍稀缺，但上一代或特定定位的 GPU 在一些区域供给更宽松。结果是：

同一型号在不同城市、不同机房，价格差距更大
同一价格能拿到的系统配置差很多：CPU、内存、SSD、网络、IB/RoCE 是否可用，都可能完全不同

地域差异被放大

一线资源更集中，但成本更高。新兴算力集群在电力、场地上更有优势，但网络链路和运营成熟度需要爬坡。很多团队的体感变成一句话：算力不稀缺，稀缺的是稳定、低抖动、可持续的交付环境。
一些西部算力中心因距离需求端远、时延高出现闲置，东部优质算力却偏紧，说明全国一体化调度还有提升空间。

交付能力溢价开始固化

价格更高的平台，往往卖的是确定性：高速网络（含 IB/RoCE 或更稳定的东西向带宽）、更强隔离、更稳的存储吞吐、更清晰的故障替换策略。2025 年开始，这些能力被写进报价单，市场从“卖卡”转向“卖交付”。

需求侧：推理在吃掉预算，客户分层更清晰

推理成为长期消耗

2025 年需求不只是“更大模型训练”。推理增长更明显：应用进入真实业务，多模型路由、工具调用、长上下文、多模态推理让推理变成持续消耗。很多团队的重点从“再训一个更大基座”转向蒸馏、微调、压缩、加速与稳定上线。并且有预测认为 2028 年推理占比将达到 73%。

训练带来峰值，推理带来长期。采购逻辑随之变化：训练更像项目制，推理更像运营成本，关注点会变成单位 token 成本、吞吐、延迟和稳定性。

客户群体分层

互联网与 AI 巨头：万卡、十万卡级集群建设，追求弹性扩展与极高稳定性
初创与中小企业：极度看成本，按秒计费、冷启动套餐等更受欢迎
传统行业：制造、医疗、金融等需求上升，更重视行业方案与合规支持
行业占比的常见说法是：互联网约 62% 为主力，政府、金融、医疗、教育、制造等合计约 33%。

技术驱动力：三件事在推市场往前走

架构代际跃迁

市场从 Hopper（H100/H200）向更高效的 Blackwell（B100/B200）迁移。新架构提升算力并改善能效，直接压低单位电力成本。与此同时，合规版本（H800/A800/H20 等）仍是高端训练主力，供给从紧张转向相对宽松。

绿色技术从加分项变必选项

液冷普及把 PUE 压到 1.1 以下。单机柜功耗从传统 10kW+ 走向 20–30kW+。AI 数据中心 IT 能耗也在快速上升：2025 年预计 77.7TWh，2027 年或达 146.2TWh。能耗审批趋严，绿电直供与高效制冷成为硬门槛。

虚拟化与调度优化

虚拟化分时租赁把 GPU 利用率推到 85%+。国产 AI 服务器适配率也提升到 90%+。部分平台探索“仅 GPU 运行时计费”，试图把非计算阶段的成本打下来。

竞争格局：谁的生态更强，谁更能活下去

头部云厂商

依托自有数据中心与全栈能力占据主要份额，走“算力+算法+生态”路线：强化一体化服务、跨区域调度、自主可控等。也更容易从单卡一路覆盖到万卡集群，并支持混合部署 NVIDIA 与国产芯片。

专业租赁平台

AutoDL、潞晨云、晨涧云等聚合多家资源池，覆盖 4090 到 H100/A100 等型号，强调高性价比与一键部署。并行科技、润建股份、中贝通信等则凭区域资源、调度能力或细分领域服务占位。

跨界玩家

运营商、大型 IDC、服务器/芯片背景厂商入局，让竞争更复杂。价格战之外，焦点转向异构调度、节点布局、行业大模型深度整合、全流程工具链等能力。

国产替代：加速与阵痛并存

国产芯片在推理场景优势明显，信创、金融、政务等领域渗透率提升。昇腾持续迭代，壁仞、摩尔线程、沐曦等加速商用，部分落地千卡集群并推进资本化。

但生态仍在早期：CUDA 兼容依旧是难点，算力企业经常面临“保国产化率”与“保性能/利润”的拉扯。自建智算中心利用率偏低（有的仅 20%），闲置资源涌入租赁市场，既是机会，也暴露生态成熟度不足。

政策：强力引导叠加更高合规要求

“东数西算”推动西部低成本算力释放与全国布局。多地推出“算力券/训力券”，补贴企业用算成本，刺激垂类模型和应用开发。地方也会对国产 GPU 采购提供补贴与税收优惠，鼓励绿色算力。

同时，合规门槛抬升。算力租赁越来越像基础设施采购，不能等到最后再补。数据跨地域与跨主体、语料与日志的敏感性、最小权限、审计留痕，都需要提前设计。很多团队真正的教训不是单价，而是“上线前才发现合规不通过”。

采购路径：三条主流路线

1）大厂云平台：标准化强、合规能力强、配套服务多，但配额与价格、部分型号可得性需要确认。 2）专业算力租赁商：更愿意提供“整机+网络+存储+运维”的打包交付，适合目标明确、要稳定训练的团队。 3）撮合/分发型市场：价格灵活，但风险自担。合同边界、故障责任必须写清楚。

成本的真相：有效算力才是王道

2025 年确实“更便宜”了，但项目总成本仍被这些东西决定：

GPU 利用率：数据管道、IO、网络抖动会拉高空转
重跑成本：训练中断导致的重跑不是线性损失
工程人力：版本兼容、镜像组合消耗大量时间
抢占资源不确定性：便宜但随时回收，适用面有限

所以更实用的指标是： 有效算力成本 = 花的钱 / 实际得到的稳定吞吐与有效训练步数。价格低但跑不稳，最后往往更贵。

2026 展望：赢家不只是“有卡的人”

2025 年是从“野蛮生长”走向“高质量发展”的转折点。市场会继续分层：供给更丰富但更复杂；推理更强，采购更像长期运营；价格下探，但交付被定价；合规从可选项变硬门槛。

到 2026 年，真正值得看的是：

谁能把资源利用率做高
谁能把交付做稳
谁能把成本结构压下来
谁能把风险关进笼子里

算力即生产力。市场正在从“硬件堆砌”转向“全栈服务+场景适配”。最终胜出的，会是能把算力真正转化为生产力的玩家。