服务端推理服务GPU利用率优化通用思路本文分析了服务端推理服务流程中影响GPU利用率的一些常见因素，包含软件层面和硬件层

GPU特点

计算过程涉及cpu、内存、gpu、显存多个硬件之间的配合

要想充分利用GPU，本质上就是需要协调这些硬件之间的计算关系。

最理想的配合方式就是CPU只做控制(分支密集型)，GPU只做计算（数据密集型），且内存/显存的带宽不存在瓶颈。因为GPU计算速度非常高，在CPU资源有限的情况下，CPU只做控制才可以尽可能地匹配GPU的速率。

流程图.jpg

上图是服务端推理服务的整体链路，分析性能瓶颈时应该从整体出发。

以下可能造成GPU利用率瓶颈的一些情况：

RPC/HTTP框架Workers线程配置过少，无法接受足够的请求。CPU和GPU没有足够的任务，处于饥饿状态。表现是CPU和GPU利用率都不高，但是QPS已达到瓶颈。
CPU的处理流程中进行了同步IO的一些操作(比如从磁盘或网络读取图片等)。这里由于CPU在等待IO操作就绪而成为瓶颈，而GPU等待CPU控制逻辑从而利用率低。表现是CPU和GPU利用率都不高，但是QPS已达到瓶颈。
CPU利用率高，但真正处理有效计算的时长占比不高（比如自旋锁、线程数过多造成的上下文切换频繁等）。这里CPU由于无效计算成为瓶颈，GPU等待CPU控制逻辑而利用率低。表现是CPU利用率高而GPU利用率低。
CPU利用率高，真正处理有效计算的时长占比也高，这里CPU由于性能限制成为瓶颈，GPU等待CPU而利用率低。表现是CPU利用率高而GPU利用率低。
GPU利用具有明显的时间相关性，某些时间片GPU处于闲置状态。
数据传输存在瓶颈，数据传输与计算过程是串行的，GPU有部分时间是在等待数据传输；
CUDA层面多个kernel函数并行度不高，没有重叠数据传输、CPU和GPU异构设备的计算（cuda multi-stream) 。

优化的基本思路是将这些异构硬件作为一个系统看待，并且从一个请求的整体链路来分析可能存在的瓶颈(木桶效应)，然后有针对性的去优化，以下是一些常见的手段。