Cudnn 算子融合这里我们以视觉网络中常见的 conv+ bn 说起一、推理融合 1. BatchNorm 的公式

这里我们以视觉网络中常见的 conv+ bn 说起

一、推理融合

截屏2025-08-16 18.13.46.png

1. BatchNorm 的公式

对于通道 $c$ 的输入特征图 $x$ ，BatchNorm 在训练时公式为：

y = \gamma \cdot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta

其中：

$\mu, \sigma^2$ ：均值和方差（训练后会存成推理时固定的 running_mean 和 running_var）
$\gamma, \beta$ ：可学习的缩放和偏移参数
$\epsilon$ ：防止除零的小常数

2. Conv 的公式

假设卷积层的权重为 W，偏置为 b，卷积计算为：

z=W*x+b

其中 * 表示卷积操作。

3. Conv + BN 融合原理

把 BN 的线性变换合并进卷积：

BN 先把卷积结果标准化：

y = \gamma \cdot \frac{(W*x + b) - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta

重新整理成：

y = \left(\frac{\gamma}{\sqrt{\sigma^2 + \epsilon}}\right) (W*x) + \left(\frac{\gamma}{\sqrt{\sigma^2 + \epsilon}} (b - \mu) + \beta \right)

定义新的卷积参数：
- 新权重：
$W' = W \cdot \frac{\gamma}{\sqrt{\sigma^2 + \epsilon}}$
- 新偏置：
$b' = \frac{\gamma}{\sqrt{\sigma^2 + \epsilon}} (b - \mu) + \beta$

最终得到等效的 Conv-only 层：

y=W′∗x+b′y = W' * x + b'

4. 融合的好处

减少推理开销：少了一层 BN 计算和访存。
简化计算图：利于部署到 TensorRT、TVM、ONNXRuntime、NCNN 等推理框架。

二、训练融合

前向融合

我们继续以该图分析

截屏2025-08-16 18.13.46.png

bn 训练前向

给定的某一通道内：

1、批统计：求均值标准差

\mu_B=\frac{1}{m}\sum_{i=1}^m x_i,\qquad \sigma_B^2=\frac{1}{m}\sum_{i=1}^m (x_i-\mu_B)^2

2、求归一化

\hat{x}_i=\frac{x_i-\mu_B}{\sqrt{\sigma_B^2+\varepsilon}},\qquad y_i=\gamma\,\hat{x}_i+\beta

以上两步都需要遍历当前通道内NHW个点

卷积前向：

假设卷积层的权重为 W，偏置为 b，卷积计算为：

z=W*x+b

其中 * 表示卷积操作。

这里我们以cuda 编程模型来考虑，为了追求性能，卷积和 bn 训练的滑块无法做到统一。所以对于训练融合我们换个思路，将 bn 训练第一步和第二步在计算图上拆为两个计算节点，归一化节点结合 relu，conv 进行融合。第一部分不进行融合，这样计算图可以粗略概括为，conv+bn+relu+bn==>conv+stats+(scale+bias+relu+conv)

下载.png

反向融合

反向融合首先要明白反向传播的原理，其本质就是链式求导

bn 的反向传播也主要分为两部分

第一步求 db ds

第二步求 A B C 三个系数并进行运算得出 dinput

推导如下

首先明白最终目标是求得 $\displaystyle \frac{\partial L}{\partial x_i}$ 。

回顾前向公式

\mu=\tfrac{1}{m}\sum_{j=1}^m x_j,\quad \sigma^2=\tfrac{1}{m}\sum_{j=1}^m (x_j-\mu)^2,\quad \hat{x}_i=\frac{x_i-\mu}{\sqrt{\sigma^2+\varepsilon}},\quad y_i=\gamma\hat{x}_i+\beta.

所以反向公式分为三部分

\frac{\partial L}{\partial x_i} = {\frac{\partial L}{\partial \hat{x}_i}\frac{\partial \hat{x}_i}{\partial x_i}} + {\frac{\partial L}{\partial \mu}\frac{\partial \mu}{\partial x_i}} + {\frac{\partial L}{\partial \sigma^2}\frac{\partial \sigma^2}{\partial x_i}}

1、 \frac{\partial L}{\partial \hat{x}_i}\frac{\partial \hat{x}_i}{\partial x_i} = \frac{\partial L}{\partial y_i} \frac{\partial y_i}{\partial \hat{x}_i}\frac{\partial \hat{x}_i}{\partial x_i} = \frac{\partial L}{\partial y_i}\gamma

2、\frac{\partial L}{\partial \mu}\frac{\partial \mu}{\partial x_i}

对于\frac{\partial L}{\partial \mu},由两部分组成，一个是\hat{x}_i 中\mu,另一部分是\sigma^2中的\mu，所以

\frac{\partial L}{\partial \mu}=\sum_{i=1}^m\frac{\partial L}{\partial \hat{x}_i}\frac{\partial \hat{x}_i}{\partial \mu}+\sum_{i=1}^m\frac{\partial L}{\partial \hat{x}_i}\frac{\partial \hat{x}_i}{\partial \sigma^2}\frac{\partial \sigma^2}{\partial \mu},

首先我们看下

$\frac{\partial \sigma^2}{\partial \mu}=\tfrac{-2}{m}\sum_{j=1}^m (x_j-\mu) 这个导数恒等于 0，所以\frac{\partial L}{\partial \mu}的值由前半部分\sum_{i=1}^m\frac{\partial L}{\partial \hat{x}_i}\frac{\partial \hat{x}_i}{\partial \mu}决定$

\sum_{i=1}^m\frac{\partial L}{\partial \hat{x}_i}\frac{\partial \hat{x}_i}{\partial \mu}=\sum_{i=1}^m\frac{\partial L}{\partial \hat{x}_i}\frac{-1}{\sqrt{\sigma^2+\varepsilon}}

又由于 \frac{\partial \mu}{\partial x_i}=\frac{1}{m}，所以\frac{\partial L}{\partial \mu}\frac{\partial \mu}{\partial x_i}=\frac{1}{m}\sum\frac{\partial L}{\partial \hat{x}_i}\frac{-1}{\sigma}

3、继续分析{\frac{\partial L}{\partial \sigma^2}\frac{\partial \sigma^2}{\partial x_i}}

把 $\hat{x}_i=(x_i-\mu)\text{inv\_std} ,把 {\text {inv\_std}} 看作 \frac{1}{\sqrt{\sigma^2+\varepsilon}}$ 看作 $\hat{x}_i$ 对 $\sigma^2$ 的函数：

\frac{\partial \hat{x}_i}{\partial \sigma^2} =(x_i-\mu)\cdot\frac{\partial \text{inv\_std}}{\partial \sigma^2} =(x_i-\mu)\cdot\Big(-\tfrac{1}{2}\Big)(\sigma^2+\varepsilon)^{-3/2}.

于是

\frac{\partial L}{\partial \sigma^2} =\sum_i d\hat{x}_i\frac{\partial \hat{x}_i}{\partial \sigma^2} =\Big(-\tfrac{1}{2}\Big)(\sigma^2+\varepsilon)^{-3/2}\sum_i d\hat{x}_i(x_i-\mu).

又由于

\frac{\partial \sigma^2}{\partial x_i}=\frac{2}{m}(x_i-\mu)

所以

{\frac{\partial L}{\partial \sigma^2}\frac{\partial \sigma^2}{\partial x_i}}=\frac{2}{m}(x_i-\mu)*\Big(-\tfrac{1}{2}\Big)(\sigma^2+\varepsilon)^{-3/2}\sum_j d\hat{x}_j(x_j-\mu)

将以上求得的三部分相加

\boxed{\;\frac{\partial L}{\partial x_i} =\frac{\text{inv\_std}}{m}\Big(m\,d\hat{x}_i - S_1 - \hat{x}_i\,S_2\Big)\;}

S_1(db)=\sum_j d\hat{x}_j,\qquad S_2(ds)=\sum_j d\hat{x}_j\,\hat{x}_j.

relu 的反向传播 relu 前向公式

y = \text{ReLU}(x) = \max(0, x)

对输入 $x$ 求导：

\frac{\partial y}{\partial x} = \begin{cases} 1 & \text{如果 } x > 0 \\ 0 & \text{如果 } x < 0 \end{cases}

假设我们有损失函数 $L$ ，它依赖于 ReLU 的输出 $y$ ，我们要求

\frac{\partial L}{\partial x}

由链式法则：

\frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial x}

其中：

$\frac{\partial L}{\partial y}$ 来自上游（前一层传下来的梯度）
$\frac{\partial y}{\partial x}$ 是 ReLU 的导数（0 或 1）

所以：

\frac{\partial L}{\partial x} = \begin{cases} \frac{\partial L}{\partial y} & \text{如果 } x > 0 \\ 0 & \text{如果 } x \leq 0 \end{cases}

在实际框架里，比如 PyTorch，ReLU backward 常写成：

grad_input = grad_output * (x > 0)

所以整个bn+relu+卷积的反向流程如图所示，这里类似前向分为两个算子，卷积 relu 为一个融合算子，求db ds为另一个算子

三、融合方式

预编译模式不灵活但是算子可定制优化

动态生成编译模式灵活但是算子不好定制优化性能略差