2025 年国内 GPU 算力市场复盘:增长、回调与新的分层

15 阅读10分钟

2025 年,如果还只盯着“每张卡每小时多少钱”,很容易在真实项目里吃亏。国内 GPU 算力租赁的核心矛盾变了:不再是“有没有卡”,而是“能不能交付”。算力能买到,但把训练或推理稳定跑起来、把账单和风险压住,才是难点。

市场规模继续变大,甚至冲破千亿关口。与此同时,价格大幅下滑,“增收不增利”开始普遍化。竞争焦点也从资源供给转向技术整合、生态与服务能力。这一年更像分水岭:从“量”走向“质”。


数字背后的真实故事

规模:增长还在,但结构在变

  • 2024 年国内智能算力租赁规模约 377 EFlops(FP16),同比增长 88.5%。
  • 进入 2025 年,市场规模继续上升,出现“突破 500 亿元、同比约 68%”的说法;也有更激进预测,认为智能算力总规模可到 1037.3 EFlops,对应市场规模超过 2100 亿元。
  • 全球维度上,GPU 算力租赁市场预计从 2024 年约 59.12 亿美元,以约 21.4% 的年复合增速增长到 2031 年 236.2 亿美元。中国仍是关键增量。
  • 未来三年(2025–2027),智能算力租赁复合增速仍可能维持在 50% 左右,2027 年或超 1300 EFlops。

这些数字的共同点是:需求旺盛,增长还在。但增长方式变了,市场开始更重视“有效算力”。

价格:雪崩式回调

2025 年最醒目的变化是“价格雪崩”。早期受供给紧张与大模型竞赛影响,价格被推到高位。中国市场 H100 的小时租赁价一度接近 13 美元(约 90 多元人民币)。

但到 2025 年,回调非常明显:

  • H100 价格降至约 5 美元/小时(约 35 元人民币)。全球均价也从年初约 5 美元降至 2.4 美元,跌幅超过 70%。

  • 主流 AI 服务器(如 A800)两年内降幅超过 50%。

  • 2025 年中,市场上常见的实际报价区间(按小时)大致是:

    • H100(80GB):15–20 元
    • A100(40GB):3–5 元
    • RTX 4090:1.7–2.0 元(部分平台按量更低)
    • 国产昇腾等:推理场景性价比更突出

价格下来的原因很“工程化”,不玄学:

  1. 新架构上市带来单位算力成本下降
  2. 地方政府、央企和互联网巨头自建智算中心加速,闲置产能释放
  3. 高效开源模型降低训练门槛
  4. 云厂与平台打价格战抢份额

利润:需求旺,钱却不好赚

需求很强,但利润压力更强。2025 年第三季度,A 股相关概念公司里,超过一半毛利率同比下滑。“增收不增利”成了常态。原因也直接:电力、合规等成本上升,售价又在跌,双向挤压。


市场到底在卖什么:三种形态的算力

1)整机/裸金属:偏训练的“硬交付”

典型客户是长时间占用、对性能上限敏感的训练团队。优点是干扰少,网络、存储、驱动版本可以固定。缺点也明显:交付周期长,硬件故障或链路波动时,对运维能力要求更高。

2)云上 GPU 实例:偏开发与弹性

适合快速验证、弹性推理、短周期训练。开通快,工具链齐。但邻居噪声、磁盘吞吐和网络抖动会影响训练效率,跨地域数据也更复杂。

3)托管推理/平台化:偏业务上线

你买的不是“几张卡”,而是 QPS、延迟和可用性。问题在于:预算控制、限流、灰度如果没工程化,账单可能很快失控。

到 2025 年底,一个趋势越来越清楚:算力从资源变商品,再从商品变服务。


供给侧:多代同堂,地域分化,交付开始溢价

型号分裂更明显

高端训练卡仍稀缺,但上一代或特定定位的 GPU 在一些区域供给更宽松。结果是:

  • 同一型号在不同城市、不同机房,价格差距更大
  • 同一价格能拿到的系统配置差很多:CPU、内存、SSD、网络、IB/RoCE 是否可用,都可能完全不同

地域差异被放大

一线资源更集中,但成本更高。新兴算力集群在电力、场地上更有优势,但网络链路和运营成熟度需要爬坡。很多团队的体感变成一句话:算力不稀缺,稀缺的是稳定、低抖动、可持续的交付环境。
一些西部算力中心因距离需求端远、时延高出现闲置,东部优质算力却偏紧,说明全国一体化调度还有提升空间。

交付能力溢价开始固化

价格更高的平台,往往卖的是确定性:高速网络(含 IB/RoCE 或更稳定的东西向带宽)、更强隔离、更稳的存储吞吐、更清晰的故障替换策略。2025 年开始,这些能力被写进报价单,市场从“卖卡”转向“卖交付”。


需求侧:推理在吃掉预算,客户分层更清晰

推理成为长期消耗

2025 年需求不只是“更大模型训练”。推理增长更明显:应用进入真实业务,多模型路由、工具调用、长上下文、多模态推理让推理变成持续消耗。很多团队的重点从“再训一个更大基座”转向蒸馏、微调、压缩、加速与稳定上线。并且有预测认为 2028 年推理占比将达到 73%。

训练带来峰值,推理带来长期。采购逻辑随之变化:训练更像项目制,推理更像运营成本,关注点会变成单位 token 成本、吞吐、延迟和稳定性。

客户群体分层

  • 互联网与 AI 巨头:万卡、十万卡级集群建设,追求弹性扩展与极高稳定性
  • 初创与中小企业:极度看成本,按秒计费、冷启动套餐等更受欢迎
  • 传统行业:制造、医疗、金融等需求上升,更重视行业方案与合规支持
    行业占比的常见说法是:互联网约 62% 为主力,政府、金融、医疗、教育、制造等合计约 33%。

技术驱动力:三件事在推市场往前走

架构代际跃迁

市场从 Hopper(H100/H200)向更高效的 Blackwell(B100/B200)迁移。新架构提升算力并改善能效,直接压低单位电力成本。与此同时,合规版本(H800/A800/H20 等)仍是高端训练主力,供给从紧张转向相对宽松。

绿色技术从加分项变必选项

液冷普及把 PUE 压到 1.1 以下。单机柜功耗从传统 10kW+ 走向 20–30kW+。AI 数据中心 IT 能耗也在快速上升:2025 年预计 77.7TWh,2027 年或达 146.2TWh。能耗审批趋严,绿电直供与高效制冷成为硬门槛。

虚拟化与调度优化

虚拟化分时租赁把 GPU 利用率推到 85%+。国产 AI 服务器适配率也提升到 90%+。部分平台探索“仅 GPU 运行时计费”,试图把非计算阶段的成本打下来。


竞争格局:谁的生态更强,谁更能活下去

头部云厂商

依托自有数据中心与全栈能力占据主要份额,走“算力+算法+生态”路线:强化一体化服务、跨区域调度、自主可控等。也更容易从单卡一路覆盖到万卡集群,并支持混合部署 NVIDIA 与国产芯片。

专业租赁平台

AutoDL、潞晨云、晨涧云等聚合多家资源池,覆盖 4090 到 H100/A100 等型号,强调高性价比与一键部署。并行科技、润建股份、中贝通信等则凭区域资源、调度能力或细分领域服务占位。

跨界玩家

运营商、大型 IDC、服务器/芯片背景厂商入局,让竞争更复杂。价格战之外,焦点转向异构调度、节点布局、行业大模型深度整合、全流程工具链等能力。


国产替代:加速与阵痛并存

国产芯片在推理场景优势明显,信创、金融、政务等领域渗透率提升。昇腾持续迭代,壁仞、摩尔线程、沐曦等加速商用,部分落地千卡集群并推进资本化。

但生态仍在早期:CUDA 兼容依旧是难点,算力企业经常面临“保国产化率”与“保性能/利润”的拉扯。自建智算中心利用率偏低(有的仅 20%),闲置资源涌入租赁市场,既是机会,也暴露生态成熟度不足。


政策:强力引导叠加更高合规要求

“东数西算”推动西部低成本算力释放与全国布局。多地推出“算力券/训力券”,补贴企业用算成本,刺激垂类模型和应用开发。地方也会对国产 GPU 采购提供补贴与税收优惠,鼓励绿色算力。

同时,合规门槛抬升。算力租赁越来越像基础设施采购,不能等到最后再补。数据跨地域与跨主体、语料与日志的敏感性、最小权限、审计留痕,都需要提前设计。很多团队真正的教训不是单价,而是“上线前才发现合规不通过”。


采购路径:三条主流路线

1)大厂云平台:标准化强、合规能力强、配套服务多,但配额与价格、部分型号可得性需要确认。 2)专业算力租赁商:更愿意提供“整机+网络+存储+运维”的打包交付,适合目标明确、要稳定训练的团队。 3)撮合/分发型市场:价格灵活,但风险自担。合同边界、故障责任必须写清楚。


成本的真相:有效算力才是王道

2025 年确实“更便宜”了,但项目总成本仍被这些东西决定:

  • GPU 利用率:数据管道、IO、网络抖动会拉高空转
  • 重跑成本:训练中断导致的重跑不是线性损失
  • 工程人力:版本兼容、镜像组合消耗大量时间
  • 抢占资源不确定性:便宜但随时回收,适用面有限

所以更实用的指标是: 有效算力成本 = 花的钱 / 实际得到的稳定吞吐与有效训练步数。 价格低但跑不稳,最后往往更贵。


2026 展望:赢家不只是“有卡的人”

2025 年是从“野蛮生长”走向“高质量发展”的转折点。市场会继续分层:供给更丰富但更复杂;推理更强,采购更像长期运营;价格下探,但交付被定价;合规从可选项变硬门槛。

到 2026 年,真正值得看的是:

  • 谁能把资源利用率做高
  • 谁能把交付做稳
  • 谁能把成本结构压下来
  • 谁能把风险关进笼子里

算力即生产力。市场正在从“硬件堆砌”转向“全栈服务+场景适配”。最终胜出的,会是能把算力真正转化为生产力的玩家。