国产替代实战系列（三）：性能优化——填补算力、显存与带宽的三大 Gap当模型通过 ONNX 顺利迁移并“点亮”后，客户接

模型跑通只是拿到了“准考证”，真正的考试是性能对比。在“只做推理”的场景下，性能优化本质上是一场关于资源调度的极致博弈。

作为 FAE，当你面对客户质疑“为什么国产卡跑得比 A100 慢”时，你得拿出这三板斧。

一、算力 Gap：别让芯片“空转”

痛点： 国产芯片的峰值算力（TFLOPS）可能不差，但由于算子发射开销大或利用率低，导致实际推理速度慢。

极致算子融合 (Kernel Fusion)：

NVIDIA 的生态极其成熟，算子自动合并做得很好。在国产卡上，我们需要手动或通过编译器指令，把 Add、ReLU、LayerNorm 等碎片算子揉成一个大 Kernel。
- FAE 经验： 减少 Kernel Launch 的次数，能显著降低推理延迟。
低比特量化 (Quantization)：

既然不涉及训练，我们要果断推行 $INT8$ 或 $FP8$ 量化。我们要向客户证明：通过平滑量化（SmoothQuant）等技术，我们可以用极小的精度损失换取近 2 倍的吞吐量提升。

二、显存 Gap：小池子里怎么游大鱼？

痛点： 显存容量虽大，但如果显存分配机制（Memory Management）低效，Batch Size 就开不起来。

PagedAttention 移植：

这是目前大模型推理的“神技”。如果芯片自研框架原生支持不佳，FAE 需要协助客户在推理引擎层实现类似 vLLM 的物理内存分页管理。
- 核心目标： 将显存利用率从 60% 强行拉升到 90% 以上，消灭显存碎片，让 KV Cache 能够容纳更多的并发请求。
显存带宽压榨：

推理是典型的“访存密集型”任务。检查模型权重在显存中的布局，确保满足合并访问（Coalesced Access） 的要求，减少总线读取次数。

三、带宽 Gap：打破集群通信的“肠梗阻”

痛点： 单卡很强，多卡联调就拉胯。国产卡往往没有 NVLink 那种恐怖的互联带宽，卡间通信（P2P）成了瓶颈。

通信与计算重叠 (Overlap)：

这是 FAE 的高级技巧。通过修改调度逻辑，让下一层的计算在这一层的通信还没完全结束时就开始启动，把通信时间“藏”进计算时间里。
张量并行 (TP) 的优化策略：

如果机间带宽（网卡）慢，就尽量增加 机内张量并行；如果机内互联也一般，尝试调整为 流水线并行 (PP) ，减少每一步传输的数据量。
拓扑感知调度：

别乱插卡！根据芯片厂商提供的 HCCS 或 PCIe 拓扑结构，重新分配进程 Rank，确保数据走的是最短路径。

四、性能调优的“金字塔”法则

在现场调优时，FAE 遵循的优先级顺序：

通信瓶颈： 解了它，性能可能直接翻倍。
访存瓶颈： 解决显存带宽利用率，性能提升 30%-50%。
计算瓶颈： 最难啃的硬骨头，通常通过算子深度优化获得 10%-20% 的收益。

> FAE 手记：

“性能优化是一场平衡的艺术。”

客户总是想要“全都要”，但 FAE 的职责是告诉他：在国产芯片目前的阶段，我们是通过牺牲一点显存换取带宽，还是牺牲一点精度换取延迟。

记住：最好的优化，是让客户在实际业务感知中，察觉不到他在用哪家的卡。 只要 Batch Size 够大，响应够稳，客户就不会再盯着那点 TFLOPS 的差距。

下一篇预告： 《交付节奏-如何在30天建立“非你不可”的信任》。我们将聊聊如何管理客户的耐心，以及那个神秘的“最佳交付时间”。

国产替代实战系列（三）：性能优化——填补算力、显存与带宽的三大 Gap

一、 算力 Gap：别让芯片“空转”

二、 显存 Gap：小池子里怎么游大鱼？

三、 带宽 Gap：打破集群通信的“肠梗阻”

四、 性能调优的“金字塔”法则

> FAE 手记：

一、算力 Gap：别让芯片“空转”

二、显存 Gap：小池子里怎么游大鱼？

三、带宽 Gap：打破集群通信的“肠梗阻”

四、性能调优的“金字塔”法则