DeepSeek-V4 发布后,最值得基础设施工程师盯住的,可能不是某个榜单分数,而是“国产芯片”这个信号。
本文不追具体用了多少卡、训练成本是多少、国产芯片在训练和推理里各占多大比例。这些细节要等官方技术报告、模型卡和厂商案例来核对。这里先讨论一个更重要的工程问题:如果 DeepSeek-V4 这样的旗舰模型,已经能在国产芯片上完成关键训练或推理链路,它会怎样改变大模型基础设施的分工?
我的判断很简单:这不是“国产芯片一夜之间全面替代 NVIDIA”,而是国产 AI 计算栈从“备份路线”进入“主路径候选”的标志。过去大家问的是“能不能跑”;现在问题变成了“能不能稳定跑、便宜跑、规模化跑,并且让上层框架少改代码”。
一、先给结论
这件事的影响可以压缩成四句话:
- 对 NVIDIA 来说,护城河还在,但议价权开始松动。 CUDA、cuBLAS、NCCL、TensorRT-LLM、Nsight 仍然是全球大模型工程的默认栈;但只要国产芯片能跑通旗舰模型,采购和云服务就不再只有一张牌。
- 对国产芯片厂商来说,考题变了。 过去卖的是卡和峰值算力;以后卖的是“能把 DeepSeek/Qwen/GLM 这类模型稳定训完、稳定推起来”的整套系统能力。
- 对模型团队来说,硬件约束会更早进入架构设计。 MoE、MLA、KV 压缩、FP8/BF16 精度、通信 overlap、checkpoint 格式,都不再只是性能优化,而是能不能跨硬件落地的前提。
- 对工程师来说,未来三年的机会在多后端基础设施。 PyTorch、Triton、vLLM、SGLang、Megatron、DeepSpeed 这些栈都要面对 CUDA 之外的严肃生产后端,懂“模型 + 系统 + 芯片”的人会更值钱。
真正的分水岭不是某一张国产卡的理论 TFLOPS 超过了谁,而是:国产芯片能不能成为模型公司规划新模型时的正常选项,而不是事后适配的政治任务。
二、为什么这件事比“又一个模型发布”更重要
DeepSeek 过去几次冲击行业,靠的都不是单点技术,而是系统工程密度。
V2/V3/R1 让大家重新认识了 MoE、MLA、FP8、低成本训练和推理时 Scaling。它们改变的是模型架构和训练范式。V4 如果把国产芯片放到台前,改变的就是更底下的一层:算力供应链和系统软件栈。
可以把影响链条画成这样:
国产 AI 芯片 / NPU
↓
系统软件:CANN / HCCL / MindIE / 厂商 SDK
↓
框架后端:PyTorch / Megatron / vLLM / SGLang / 自研引擎
↓
模型架构:MoE / MLA / 长上下文 / 推理时 Scaling
↓
云服务与私有部署:API、专属云、政企本地化、成本治理
过去国产替代常常停在第一层:芯片发布、单机 benchmark、适配若干模型 demo。真正困难的是第二层和第三层:算子库、通信库、运行时、Profiler、调度器、故障恢复、长时间训练稳定性。
DeepSeek-V4 如果把这条链路跑通,意义就不只是“用了国产芯片”,而是证明国产栈开始具备一种新能力:承载真实旗舰模型的工程闭环。
三、对 NVIDIA 生态:不是替代,而是重新定价
短期内,CUDA 仍然是大模型工程的默认操作系统。
这个判断不用因为一次发布就急着推翻。NVIDIA 的优势不是单卡算力,而是十几年软件栈复利:cuBLAS 的 GEMM 覆盖、cuDNN 的 SDPA、NCCL 的集合通信、Nsight 的可观测性、TensorRT-LLM 的推理部署、社区论文默认 CUDA 实现。这些东西不是“做一张卡”就能复制出来的。
但 DeepSeek-V4 的信号在于:NVIDIA 不再是唯一可信的高端路线。
这会带来三个直接变化。
第一,采购谈判变了。过去头部模型团队买 H100/H200/B200,本质上是在买确定性。国产路线如果能支撑旗舰模型,哪怕效率暂时低一些,也会成为谈判桌上的真实筹码。
第二,云厂商定价变了。只要国产算力池能承接一部分推理或训练任务,国内大模型 API 的价格就不完全被 NVIDIA 卡供应和美元云价牵着走。模型服务商可以把“国产算力 + 自研推理引擎 + 自有模型”打包成自己的成本曲线。
第三,模型架构会更硬件感知。以前很多团队先按 NVIDIA 路线设计模型,再考虑国产适配。以后更可能反过来:从一开始就问,这个 MoE 路由、这个 Attention 变体、这个 FP8 scale、这个通信模式,在国产卡上有没有高效原语。
所以它不是“CUDA 失效”,而是“CUDA-only 的工程假设失效”。
四、对国产芯片厂商:从交付硬件到交付系统
国产 AI 芯片过去最容易陷入一个误区:把竞品表格做得很漂亮,峰值算力、HBM 容量、带宽、互联指标都能对标,但客户真正用起来还是卡在软件。
大模型客户不买“峰值”,买的是下面这些问题的答案:
| 过去的考核 | 现在真正的考核 |
|---|---|
| 单卡 TFLOPS | 真实模型 MFU、吞吐、TTFT、TPOT |
| 单机 demo | 千卡 / 万卡作业连续运行稳定性 |
| 支持 PyTorch | 支持 PyTorch 2.x、vLLM、SGLang、Megatron 关键路径 |
| 算子列表很长 | 关键模型的热路径算子足够快 |
| 有通信库 | HCCL / MCCL 在真实拓扑下不拖后腿 |
| 有 profiler | 工程师能定位慢 kernel、慢通信、慢调度 |
这也是为什么“DeepSeek-V4 用国产芯片”会成为芯片厂商的压力,而不只是宣传材料。因为一旦头部模型跑通,客户会立刻问:同样的模型,我能不能跑?我的 batch、上下文长度、并发、量化方案不一样,还能不能跑?出了性能问题,你能不能给我定位到算子、通信、调度还是网络?
国产芯片厂商真正要补的不是 PPT 上的峰值,而是四个工程面:
- 算子库:GEMM、Attention、LayerNorm、RMSNorm、RoPE、MoE dispatch/combine、量化反量化,全都要有高性能实现。
- 通信库:AllReduce、AllGather、ReduceScatter、All-to-All 要能吃满拓扑,MoE 尤其依赖 All-to-All。
- 运行时与调度:显存池、Graph capture、stream 管理、host/device 同步,都决定推理 p99。
- 工具链:没有好用 profiler 和错误定位工具,国产集群越大,工程师越痛苦。
一句话:国产芯片下一阶段拼的是“系统产品”,不是“芯片参数”。
五、对训练工程:算法会更硬件友好
如果只看模型论文,很容易以为架构创新是纯算法选择。真实训练不是这样。训练一个旗舰模型,本质上是在有限硬件、有限互联、有限故障预算里,把架构、并行、精度、通信一起调到能收敛。
国产芯片进入主路径后,训练工程会有几个变化。
5.1 MoE 会继续吃香,但路由要更克制
MoE 的优势是激活参数少,单位 token FLOPs 低。它天然适合算力紧张的环境。但 MoE 的代价是通信复杂,尤其是 Expert Parallel 带来的 All-to-All。
在 NVIDIA NVLink/NVSwitch 上舒服的 EP 配置,搬到国产集群上未必舒服。未来模型团队会更早考虑这些问题:
- 专家数是不是太多;
- Top-K 是不是让通信变得过重;
- 共享专家能不能减少路由压力;
- dispatch/combine 能不能和计算融合;
- expert placement 能不能和真实拓扑匹配。
也就是说,MoE 不会变少,但会变得更“硬件礼貌”。
5.2 MLA、KV 压缩、长上下文优化会更重要
推理成本越来越多地花在 KV cache 和 decode 带宽上。国产芯片如果 HBM 容量、带宽、显存管理能力弱于顶级 NVIDIA 卡,那么 MLA、KV 量化、PagedAttention、Prefix Cache、PD 分离就不是锦上添花,而是部署前提。
这也是 DeepSeek 路线的启发:架构不是只为 benchmark 服务,也是在替基础设施省钱。
5.3 精度策略会从“默认 FP16/BF16”变成硬件协商
不同芯片对 BF16、FP16、FP8、INT8 的支持细节不同。训练里最难的不是“某个 dtype 能不能跑”,而是:
- LayerNorm / Softmax 这些敏感算子是否稳定;
- FP8 scale history 如何 checkpoint;
- 不同硬件的舍入、累加、溢出行为会不会让 loss 曲线分叉;
- 混合精度策略能不能在重启、迁移、断点续训时保持一致。
这会逼训练框架把“精度策略”做成显式配置,而不是藏在 CUDA 默认行为里。
六、对推理工程:最先落地,也最先卷价格
训练端验证一款国产芯片很难,因为周期长、故障贵、调参复杂。推理端会更快进入规模化。
原因很直接:推理可以按模型、batch、上下文长度分场景切分;可以用量化降低显存压力;可以先承接政企、本地化、固定流量业务;即使单卡效率不如 H100,只要整机成本、供货、合规和运维可控,就有商业空间。
DeepSeek-V4 如果在国产芯片上推理成熟,会带来三类变化。
第一,国内模型 API 价格继续下探。价格下降不一定来自单卡绝对性能,而来自供应链可控、闲置国产算力池复用、模型架构更省、推理引擎更贴模型。
第二,私有部署更容易成立。金融、政务、能源、运营商这些行业,不只是关心 token 单价,更关心数据不出域、供应链可审计、国产化比例。国产芯片跑旗舰模型,会让“本地部署旗舰能力”从口号变成项目。
第三,推理引擎会被迫多后端化。vLLM、SGLang、TensorRT-LLM 的世界里,CUDA 路线最成熟;国产芯片要进入主流,就必须在 PagedAttention、Continuous Batching、Prefix Cache、量化 kernel、结构化输出、长上下文调度上补齐。
真正的竞争会落在这些指标上:
| 指标 | 为什么重要 |
|---|---|
| TTFT | 用户感知首 token 延迟,prefill 能力的直接体现 |
| TPOT | decode 阶段每 token 延迟,显存带宽和调度效率主导 |
| p99 延迟 | 私有部署和企业 SLA 最关心 |
| KV cache 利用率 | 决定同样显存能塞多少并发 |
| 有效吞吐 / 元 | 最终决定云服务定价 |
| 故障恢复时间 | 多卡推理服务能不能长期在线 |
推理端的残酷之处在于:用户不关心你是不是国产芯片,只关心它是不是更便宜、更稳、响应更快。
七、对云厂商和企业采购:风险模型变了
过去国内大模型基础设施采购常常是两张表:一张算 NVIDIA 高端卡,一张算国产替代。前者贵但确定,后者便宜但风险高。
DeepSeek-V4 这种事件会改变风险模型:国产路线不再只是“政策合规项”,而是可能进入主生产链路。
未来更常见的算力分层会是这样:
第一层:NVIDIA 高端卡
用于最前沿训练、国际生态兼容、复杂 kernel 研发。
第二层:国产旗舰训练 / 推理集群
用于国内主力模型训练、推理 API、政企专属云、本地化交付。
第三层:低成本推理卡 / CPU / 边缘 NPU
用于小模型、RAG rerank、embedding、离线批处理、端侧能力。
这会让企业采购从“买哪张卡”变成“怎么做算力组合”。真正要算的是两年 TCO:硬件折旧、电费、机房、运维、SDK 支持、故障率、迁移成本、模型质量损失、推理单价。
一个现实结论是:便宜卡不一定便宜,贵卡也不一定贵。只要国产集群能在目标模型上跑出稳定吞吐,它的供货确定性和合规价值会直接进入成本模型。
八、对开源生态:多后端会从口号变成硬需求
过去很多项目说自己“支持多后端”,实际含义往往是 CPU/CUDA,再加一点 ROCm。国产芯片进入主路径后,多后端会变成严肃需求。
但多后端不是把 cuda 字符串替换成 npu 这么简单。难点在四处。
第一,动态图和自定义算子。大模型推理引擎里大量高性能路径依赖自定义 kernel,ONNX 这种静态交换格式很难表达完整调度行为。
第二,内存管理。PagedAttention、KV cache、CUDA Graph、显存池,这些都是和硬件运行时深度耦合的能力。
第三,通信语义。NCCL 的行为、错误模型、拓扑选择,不一定能和 HCCL/MCCL 一一对应。训练框架必须把通信后端抽象得更干净。
第四,性能调试。没有 profiler、多流时间线、kernel 级指标,多后端就只能停在“能跑”。生产需要的是“能优化”。
所以未来三年,最有价值的开源工作不会只是“适配某张国产卡”,而是把这些项目里的硬件假设剥离出来:
- PyTorch Inductor 的多后端 codegen;
- Triton 或 Triton-like DSL 的国产后端;
- vLLM / SGLang 的 device abstraction;
- MoE dispatch/combine 的跨硬件实现;
- 训练 checkpoint、精度策略、通信拓扑的可移植描述。
这是苦活,但也是基础设施真正变厚的地方。
九、几个容易读错的地方
9.1 不等于国产芯片全面追平 NVIDIA
能跑旗舰模型,和全面追平 CUDA 生态,是两件事。前者证明可用,后者要求长期稳定、工具完善、生态广泛、成本可控。短期内,NVIDIA 仍然会是最高确定性的路线。
9.2 不等于所有国产芯片都能跑同样规模
“国产芯片”不是一个整体。不同厂商在训练、推理、互联、软件栈、供货能力上差异很大。一个头部案例跑通,不代表所有卡都能复制。
9.3 不等于成本自动下降
如果算子慢、通信打不满、故障率高、调试人力贵,低硬件采购价会被运维成本吃掉。大模型成本看的是有效 token 吞吐,不是卡的标价。
9.4 不等于模型团队可以远离底层
恰恰相反。国产芯片进入主路径后,模型团队更要懂硬件:哪些算子是热路径,哪些精度策略危险,哪些路由会制造通信灾难,哪些上下文长度会把 KV cache 打爆。
9.5 不等于“国产化”只属于政企市场
政企是最早落地的市场,但只要推理成本足够低、供货足够稳、框架足够好,互联网、开发者工具、AI 应用平台都会自然采用。工程世界最终认的是成本、质量和稳定性。
十、不同角色该怎么动
如果你是模型团队,建议从今天开始维护一份“硬件约束清单”:目标后端支持哪些 dtype、哪些 attention kernel、哪些 MoE 通信模式、最长上下文到哪里开始掉速。新模型立项时就把这些约束放进架构评审。
如果你是平台团队,重点做三件事:抽象 device backend,统一推理调度指标,建立跨硬件 benchmark。不要只测单条 prompt,要测真实业务分布下的 TTFT、TPOT、p99、KV 利用率和故障恢复。
如果你是芯片或 SDK 团队,优先级应该很清楚:先把头部模型热路径做深,再扩通用算子宽度;先把 profiler 做到工程师愿意用,再谈生态;先证明千卡稳定,再讲万卡愿景。
如果你是企业采购或架构师,不要问“这张卡能不能跑 DeepSeek-V4”,要问“在我的上下文长度、并发、SLA、数据边界和预算下,两年 TCO 是多少”。把问题问具体,答案才有意义。
十一、小结
DeepSeek-V4 使用国产芯片这件事,如果按发布信息理解,真正改变的不是某个榜单,而是行业默认假设:国产 AI 计算栈不再只是“有风险时的备份”,而开始进入“新模型、新服务、新云平台可以认真规划的主路径”。
但这条路不会因为一次发布就自动铺平。国产芯片要拿下大模型主战场,下一阶段靠的不是口号,而是算子、通信、调度、工具链、长时间稳定性、真实业务吞吐。也就是说,它要补的恰恰是 CUDA 生态过去十几年积累出来的那些“脏活”。
对工程师来说,这是好消息。因为最有价值的工作通常就藏在这种交界处:模型架构和硬件约束之间,训练框架和通信拓扑之间,推理引擎和真实业务延迟之间。
DeepSeek-V4 如果真把国产芯片推到台前,那它留下的问题不是“国产能不能做大模型”,而是下一句:怎么把国产大模型基础设施做成一条稳定、便宜、可复制的生产线。