反向传播由于图片可知这个网络输出层维度为3 第$n+1$层为例第1个神经元参数$w^{n+1}_1,b^{n+1}_1$

1 - 神经网络的反向传播

由于图片可知这个网络输出层维度为3

第 $n+1$ 层为例第1个神经元参数 $w^{n+1}_1,b^{n+1}_1$ 通过如下连锁变化影响损失函数J：

$w^{n+1}_1-->z^{n+1}_1-->(a^{n+1}_1,a^{n+1}_2,a^{n+1}_3)-->J$

$b^{n+1}_1-->z^{n+1}_1-->(a^{n+1}_1,a^{n+1}_2,a^{n+1}_3)-->J$

根据复合函数求导的链式法则：

\begin{align} dw^{n+1}_1=\frac{\partial J}{\partial w^{n+1}_1} &=\frac{\partial J}{\partial a^{n+1}_1}\frac{\partial a^{n+1}_1}{\partial z^{n+1}_1}\frac{\partial z^{n+1}_1}{\partial w^{n+1}_1}+\frac{\partial J}{\partial a^{n+1}_2}\frac{\partial a^{n+1}_2}{\partial z^{n+1}_1}\frac{\partial z^{n+1}_1}{\partial w^{n+1}_1}+\frac{\partial J}{\partial a^{n+1}_3}\frac{\partial a^{n+3}_1}{\partial z^{n+1}_1}\frac{\partial z^{n+1}_1}{\partial w^{n+1}_1}\\ &=(\frac{\partial J}{\partial a^{n+1}_1}\frac{\partial a^{n+1}_1}{\partial z^{n+1}_1}+\frac{\partial J}{\partial a^{n+1}_2}\frac{\partial a^{n+1}_2}{\partial z^{n+1}_1}+ \frac{\partial J}{\partial a^{n+1}_3}\frac{\partial a^{n+1}_3}{\partial z^{n+1}_1})\frac{\partial z^{n+1}_1}{\partial w^{n+1}_1} \end{align}

\begin{align} db^{n+1}_1=\frac{\partial J}{\partial b^{n+1}_1} &=\frac{\partial J}{\partial a^{n+1}_1}\frac{\partial a^{n+1}_1}{\partial z^{n+1}_1}\frac{\partial z^{n+1}_1}{\partial b^{n+1}_1}+\frac{\partial J}{\partial a^{n+1}_2}\frac{\partial a^{n+1}_2}{\partial z^{n+1}_1}\frac{\partial z^{n+1}_1}{\partial b^{n+1}_1}+\frac{\partial J}{\partial a^{n+1}_3}\frac{\partial a^{n+3}_1}{\partial z^{n+1}_1}\frac{\partial z^{n+1}_1}{\partial b^{n+1}_1}\\ &=(\frac{\partial J}{\partial a^{n+1}_1}\frac{\partial a^{n+1}_1}{\partial z^{n+1}_1}+\frac{\partial J}{\partial a^{n+1}_2}\frac{\partial a^{n+1}_2}{\partial z^{n+1}_1}+ \frac{\partial J}{\partial a^{n+1}_3}\frac{\partial a^{n+1}_3}{\partial z^{n+1}_1})\frac{\partial z^{n+1}_1}{\partial b^{n+1}_1} \end{align}

关键观察：

最后一项 $\frac{\partial z^{n+1}_1}{\partial w^{n+1}_1}$ 是相同的：

因为 $z^{n+1}_1 = w^{n+1}_1 \cdot a^n + b^{n+1}_1$ ，所以： $\frac{\partial z^{n+1}_1}{\partial w^{n+1}_1} = a^n \quad \text{(对所有k都相同)}$
这一项与求和索引 $k$ 无关，可以提到求和符号外面。

前两项 $\frac{\partial J}{\partial a^{n+1}_k} \cdot \frac{\partial a^{n+1}_k}{\partial z^{n+1}_1}$ 是Softmax的耦合效应：

Softmax的每个输出 $a^{n+1}_k$ 受所有 $z^{n+1}_j$ 影响，因此：
- 当 $k=1$ ： $\frac{\partial a^{n+1}_1}{\partial z^{n+1}_1} = a^{n+1}_1 (1- a^{n+1}_1)$
- 当 $k \neq 1$ ： $\frac{\partial a^{n+1}_k}{\partial z^{n+1}_1} = -a^{n+1}_k a^{n+1}_1$
这意味着 $w^{n+1}_1$ 的梯度需要汇总所有输出神经元 $a^{n+1}_1, a^{n+1}_2, a^{n+1}_3$ 的贡献。

结合网络结构分析上式，最后一项相等，将公共项 $\frac{\partial z^{n+1}_1}{\partial w^{n+1}_1} = a^n$ 提出：前两项可以合并，得到

$dw^{n+1}_1=dz^{n+1}_1\frac{\partial z^{n+1}_1}{\partial w^{n+1}_1}$

$db^{n+1}_1=dz^{n+1}_1\frac{\partial z^{n+1}_1}{\partial b^{n+1}_1}$

同理可得：

$dw^{n+1}_2=dz^{n+1}_2\frac{\partial z^{n+1}_2}{\partial w^{n+1}_2},db^{n+1}_2=dz^{n+1}_2\frac{\partial z^{n+1}_2}{\partial b^{n+1}_2}$

$dw^{n+1}_3=dz^{n+1}_3\frac{\partial z^{n+1}_3}{\partial w^{n+1}_3},db^{n+1}_3=dz^{n+1}_3\frac{\partial z^{n+1}_3}{\partial b^{n+1}_3}$

给定数据计算：

权重矩阵 $W^{n+1}$ ：3个神经元，每个神经元有4个输入权重（对应前一层4个神经元）。

\begin{align} &W^{n+1}= \left[ \begin{array}{} w^{n+1}_1 \\ w^{n+1}_2 \\ w^{n+1}_3 \\ \end{array} \right]= \left[ \begin{array}{} w_1 & w_2 & w_3 & w_4 \\ w_5 & w_6 & w_7 & w_8 \\ w_9 & w_{10} & w_{11} & w_{12} \\ \end{array} \right]\\ &B^{n+1}= \left[ \begin{array}{} b^{n+1}_1 \\ b^{n+1}_2 \\ b^{n+1}_3 \\ \end{array} \right]= \left[ \begin{array}{} b_1 \\ b_2 \\ b_3 \\ \end{array} \right]\\ &A^n= \left[ \begin{array}{} a^{n}_1 \\ a^{n}_2 \\ a^{n}_3 \\ a^{n}_4 \\ \end{array} \right]= \left[ \begin{array}{} a_{11} & a_{21} \\ a_{12} & a_{22} \\ a_{13} & a_{23} \\ a_{14} & a_{24} \\ \end{array} \right] \end{align}

对应前一层输入数据 $A^n$ ：4个神经元，2个样本（矩阵形式）。

根据前向传播原理，可以得到：

\begin{align} Z^{n+1} &=W^{n+1}A^n+B^{n+1} \\ &= \left[ \begin{array}{} z^{n+1}_1 \\ z^{n+1}_2 \\ z^{n+1}_3 \\ \end{array} \right]= \left[ \begin{array}{} z_{11} & z_{21} \\ z_{12} & z_{22} \\ z_{13} & z_{23} \\ \end{array} \right]\\ &= \left[ \begin{array}{} w_1a_{11}+w_2a_{12}+w_3a_{13}+w_4a_{14}+b_1 & w_1a_{21}+w_2a_{22}+w_3a_{23}+w_4a_{24}+b_1 \\ w_5a_{11}+w_6a_{12}+w_7a_{13}+w_8a_{14}+b_2 & w_5a_{21}+w_6a_{22}+w_7a_{23}+w_8a_{24}+b_2 \\ w_9a_{11}+w_{10}a_{12}+w_{11}a_{13}+w_{12}a_{14}+b_3 & w_9a_{21}+w_{10}a_{22}+w_{11}a_{23}+w_{12}a_{24}+b_3 \\ \end{array} \right] \end{align}

向量的求导法则，可以推出：

由公式只看括号内就是 $dz^{n+1}_1=\frac{\partial J}{\partial Z^{n+1}_1}$

\begin{align*} \frac{\partial J}{\partial w^{n+1}_1} &= \left( \frac{\partial J}{\partial a^{n+1}_1} \cdot \frac{\partial a^{n+1}_1}{\partial z^{n+1}_1} + \frac{\partial J}{\partial a^{n+1}_2} \cdot \frac{\partial a^{n+1}_2}{\partial z^{n+1}_1} + \frac{\partial J}{\partial a^{n+1}_3} \cdot \frac{\partial a^{n+1}_3}{\partial z^{n+1}_1} \right) \cdot \frac{\partial z^{n+1}_1}{\partial w^{n+1}_1} \end{align*}

可得这一层的 $dZ^{n+1}=\frac{\partial J}{\partial Z^{n+1}}$ ,由所有神经元拼接起来。

dZ^{n+1}=\frac{\partial J}{\partial Z^{n+1}}= \left[ \begin{array}{} \frac{\partial J}{\partial z^{n+1}_1} \\ \frac{\partial J}{\partial z^{n+1}_2} \\ \frac{\partial J}{\partial z^{n+1}_3} \\ \end{array} \right]= \left[ \begin{array}{} dz^{n+1}_1 \\ dz^{n+1}_2 \\ dz^{n+1}_3 \\ \end{array} \right]=\left[ \begin{array}{} \frac{\partial J}{\partial z_{11}} & \frac{\partial J}{\partial z_{21}} \\ \frac{\partial J}{\partial z_{12}} & \frac{\partial J}{\partial z_{22}} \\ \frac{\partial J}{\partial z_{13}} & \frac{\partial J}{\partial z_{23}} \\ \end{array} \right]=\left[ \begin{array}{} dz_{11} & dz_{21} \\ dz_{12} & dz_{22} \\ dz_{13} & dz_{23} \\ \end{array} \right]

\frac{\partial z^{n+1}_1}{\partial w^{n+1}_1}= \left[ \begin{array}{} \frac{\partial z_{11}}{\partial w_1} & \frac{\partial z_{11}}{\partial w_2} & \frac{\partial z_{11}}{\partial w_3} & \frac{\partial z_{11}}{\partial w_4} \\ \frac{\partial z_{21}}{\partial w_1} & \frac{\partial z_{21}}{\partial w_2} & \frac{\partial z_{21}}{\partial w_3} & \frac{\partial z_{21}}{\partial w_4} \\ \end{array} \right]=(A^n)^T, \\ \frac{\partial z^{n+1}_1}{\partial b^{n+1}_1}= \left[ \begin{array}{} \frac{\partial z_{11}}{\partial b_1} \\ \frac{\partial z_{21}}{\partial b_1} \\ \end{array} \right]= \left[ \begin{array}{} 1 \\ 1 \\ \end{array} \right]

同理可得第2、3个神经元：

\frac{\partial z^{n+1}_2}{\partial w^{n+1}_2} = (A^n)^T, \quad \frac{\partial z^{n+1}_2}{\partial b^{n+1}_2} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}

\frac{\partial z^{n+1}_3}{\partial w^{n+1}_3} = (A^n)^T, \quad \frac{\partial z^{n+1}_3}{\partial b^{n+1}_3} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}

综上，根据 $dw^{n+1}_1,dw^{n+1}_2,dw^{n+1}_3,db^{n+1}_1,db^{n+1}_2,db^{n+1}_3$ 的计算结果，得到损失函数 $J$ 对 $W^{n+1},B^{n+1}$ 的梯度：

由于公式 $dw^{n+1}_1=dz^{n+1}_1\frac{\partial z^{n+1}_1}{\partial w^{n+1}_1}$ 可得这一层的 $dW^{n+1}$ ,由所有神经元拼接起来。

dW^{n+1}= \left[ \begin{array}{} dw^{n+1}_1 \\ dw^{n+1}_2 \\ dw^{n+1}_3 \\ \end{array} \right]= \left[ \begin{array}{} dz^{n+1}_1(A^n)^T \\ dz^{n+1}_2(A^n)^T \\ dz^{n+1}_3(A^n)^T \\ \end{array} \right]= \left[ \begin{array}{} dz^{n+1}_1 \\ dz^{n+1}_2 \\ dz^{n+1}_3 \\ \end{array} \right](A^n)^T= \left[ \begin{array}{} dz_{11} & dz_{21} \\ dz_{12} & dz_{22} \\ dz_{13} & dz_{23} \\ \end{array} \right](A^n)^T\\=dZ^{n+1}(A^n)^T

dB^{n+1}= \left[ \begin{array}{} db^{n+1}_1 \\ db^{n+1}_2 \\ db^{n+1}_3 \\ \end{array} \right]= \left[ \begin{array}{} dz^{n+1}_1 \\ dz^{n+1}_2 \\ dz^{n+1}_3 \\ \end{array} \right]\left[ \begin{array}{} 1 \\ 1 \\ \end{array} \right] = \left[ \begin{array}{} dz_{11} & dz_{21} \\ dz_{12} & dz_{22} \\ dz_{13} & dz_{23} \\ \end{array} \right] \left[ \begin{array}{} 1 \\ 1 \\ \end{array} \right]\\=sum(dZ^{n+1},axis=1)

维度验证

这一层： $dW^{n+1} = dZ^{n+1} \cdot (A^n)^T=[3,2][2,4]=[3,4]$
- $dZ^{n+1}$ 形状： $3 \times 2$ （3个神经元，2个样本）
- $A^n$ 形状： $4 \times 2$ （4个输入神经元，2个样本）
- $(A^n)^T$ 形状： $2 \times 4$
- 结果 $dW^{n+1}$ 形状： $3 \times 4$ （与 $W^{n+1}$ 一致）
单个神经元： $dw^{n+1}_1=dz^{n+1}_1\frac{\partial z^{n+1}_1}{\partial w^{n+1}_1}=dz^{n+1}_1(A^n)^T=[1,2][2,4]=[1,4]$
- 这个 $dz^{n+1}_1$ 是[1,2]，当激活函数 $g=softmax$ 、损失函数 $J$ 为交叉熵时的维度验证有详细介绍，[1,4]表示：是第1个神经元的权重梯度

按照同样的方法计算损失函数 $J$ 对任意全连接层参数 $W^n,B^n$ 的梯度，比较其结果，可以得到如下结论：

结论一：误差 $J$ 对任意全连接层参数 $W^n,B^n$ 的梯度由以下公式计算：

$dW^n=dZ^n(A^{n-1})^T$
$dB^n=sum(dZ^n,axis=1)$

$sum(dZ^n,axis=1)$ 表示在 $dZ^n$ 的水平方向累加，得到一个n*1的向量， $n$ 表示层号。

2 - 误差对全连接层线性输出的梯度

由结论一可知，计算梯度 $dW^n,dB^n$ 需要首先计算损失函数 $J$ 对线性输出 $Z^n$ 的梯度 $dZ^n$ ，而计算 $dZ^n$ 会根据激活函数来确定。由于 $softmax$ 激活函数不同于一般的激活函数，根据作用于 $Z^n$ 的激活函数 $g$ 是否为 $softmax$ 函数把计算 $dZ^n$ 分成两种情况。

当激活函数 $g=softmax$ 、损失函数 $J$ 为交叉熵时

$softmax$ 激活函数应用于网络的最后一层（输出层），其作用是输出样本的预测概率分布。以上图为例，神经网络第 $n+1$ 层(输出层)的激活函数 $g$ 为 $softmax$ ，根据网络结构以及向量的求导法则，可以推出：

\begin{align} dZ^{n+1} &= \left[ \begin{array}{} dz^{n+1}_1 \\ dz^{n+1}_2 \\ dz^{n+1}_3 \\ \end{array} \right]\\ &= \left[ \begin{array}{} \frac{\partial J}{\partial a^{n+1}_1}\frac{\partial a^{n+1}_1}{\partial z^{n+1}_1} + \frac{\partial J}{\partial a^{n+1}_2}\frac{\partial a^{n+1}_2}{\partial z^{n+1}_1} + \frac{\partial J}{\partial a^{n+1}_3}\frac{\partial a^{n+1}_3}{\partial z^{n+1}_1}\\ \frac{\partial J}{\partial a^{n+1}_1}\frac{\partial a^{n+1}_1}{\partial z^{n+1}_2} + \frac{\partial J}{\partial a^{n+1}_2}\frac{\partial a^{n+1}_2}{\partial z^{n+1}_2} + \frac{\partial J}{\partial a^{n+1}_3}\frac{\partial a^{n+1}_3}{\partial z^{n+1}_2}\\ \frac{\partial J}{\partial a^{n+1}_1}\frac{\partial a^{n+1}_1}{\partial z^{n+1}_3} + \frac{\partial J}{\partial a^{n+1}_2}\frac{\partial a^{n+1}_2}{\partial z^{n+1}_3} + \frac{\partial J}{\partial a^{n+1}_3}\frac{\partial a^{n+1}_3}{\partial z^{n+1}_3}\\ \end{array} \right]\\ &= \left[ \begin{array}{} da^{n+1}_1\frac{\partial a^{n+1}_1}{\partial z^{n+1}_1} + da^{n+1}_2\frac{\partial a^{n+1}_2}{\partial z^{n+1}_1} + da^{n+1}_3\frac{\partial a^{n+1}_3}{\partial z^{n+1}_1}\\ da^{n+1}_1\frac{\partial a^{n+1}_1}{\partial z^{n+1}_2} + da^{n+1}_2\frac{\partial a^{n+1}_2}{\partial z^{n+1}_2} + da^{n+1}_3\frac{\partial a^{n+1}_3}{\partial z^{n+1}_2}\\ da^{n+1}_1\frac{\partial a^{n+1}_1}{\partial z^{n+1}_3} + da^{n+1}_2\frac{\partial a^{n+1}_2}{\partial z^{n+1}_3} + da^{n+1}_3\frac{\partial a^{n+1}_3}{\partial z^{n+1}_3}\\ \end{array} \right] \tag{1} \end{align}

又因为：

$A^{n+1}=softmax(Z^{n+1})= \left[ \begin{array}{} a^{n+1}_1 \\ a^{n+1}_2 \\ a^{n+1}_3 \\ \end{array} \right])=\left[ \begin{array}{} a_{11} & a_{21} \\ a_{12} & a_{22} \\ a_{13} & a_{23} \\ \end{array} \right]\\ =\left[ \begin{array}{} \frac{e^{z_{11}}}{e^{z_{11}}+e^{z_{12}}+e^{z_{13}}} & \frac{e^{z_{21}}} {e^{z_{21}}+e^{z_{22}}+e^{z_{23}}} \\ \frac{e^{z_{12}}}{e^{z_{11}}+e^{z_{12}}+e^{z_{13}}} & \frac{e^{z_{22}}} {e^{z_{21}}+e^{z_{22}}+e^{z_{23}}} \\ \frac{e^{z_{13}}}{e^{z_{11}}+e^{z_{12}}+e^{z_{13}}} & \frac{e^{z_{23}}} {e^{z_{21}}+e^{z_{22}}+e^{z_{23}}} \\ \end{array} \right]$

解释：这里的分母是一个样本，竖着看的求和。

Y= \left[ \begin{array}{} y_{11} & y_{21} \\ y_{12} & y_{22} \\ y_{13} & y_{23} \\ \end{array} \right]

根据交叉熵损失函数的定义可知：

\begin{align} J&=E(Y,A)=-\frac{1}{n}\sum_{j=1}^n\sum_{i=1}^m y_{ji}log(a_{ji}) \\ &=-\frac{1}{2}(y_{11}log(a_{11})+y_{12}log(a_{12})+y_{13}log(a_{13})+y_{21}log(a_{21})+y_{22}log(a_{22})+y_{23}log(a_{23})) \end{align}

$n$ 表示样本的数量， $y_{ji}$ 表示第 $j$ 个样本是第 $i$ 个类别的真实概率， $a_{ji}$ 表示第 $j$ 个样本是第 $i$ 个类别的预测概率。为保证结果书写简洁，后续求导过程中暂不考虑常数项-1/2

按照向量的求导法则，可以得到以下结果：

da^{n+1}_1=\frac{\partial J}{\partial a^{n+1}_1}= \left[ \begin{array}{} \frac{\partial J}{\partial a_{11}} & \frac{\partial J}{\partial a_{21}}\\ \end{array} \right]= \left[ \begin{array}{} \frac{y_{11}}{a_{11}} & \frac{y_{21}}{a_{21}} \\ \end{array} \right]

补充：维度[1,2],对 $J = y \log_e(a)$ 求导y是真实标签，对a求导 $\frac{\partial J}{\partial a} = \frac{y}{a}$ ，同理

da^{n+1}_2=\frac{\partial J}{\partial a^{n+1}_2}= \left[ \begin{array}{} \frac{\partial J}{\partial a_{12}} & \frac{\partial J}{\partial a_{22}}\\ \end{array} \right]= \left[ \begin{array}{} \frac{y_{12}}{a_{12}} & \frac{y_{22}}{a_{22}} \\ \end{array} \right]

da^{n+1}_3=\frac{\partial J}{\partial a^{n+1}_3}= \left[ \begin{array}{} \frac{\partial J}{\partial a_{13}} & \frac{\partial J}{\partial a_{23}}\\ \end{array} \right]= \left[ \begin{array}{} \frac{y_{13}}{a_{13}} & \frac{y_{23}}{a_{23}} \\ \end{array} \right]

下面是softmax 函数偏导数,维度[2,2]

\frac{\partial a^{n+1}_1}{\partial z^{n+1}_1}=\left[ \begin{array}{} \frac{\partial a_{11}}{\partial z_{11}} & \frac{\partial a_{11}}{\partial z_{21}} \\ \frac{\partial a_{21}}{\partial z_{11}} & \frac{\partial a_{21}}{\partial z_{21}} \\ \end{array} \right] = \left[ \begin{array}{} \frac{e^{z_{11}}(e^{z_{12}}+e^{z_{13}})}{(e^{z_{11}}+e^{z_{12}}+e^{z_{13}})^2} & 0 \\ 0 & \frac{e^{z_{21}}(e^{z_{22}}+e^{z_{23}})}{(e^{z_{21}}+e^{z_{22}}+e^{z_{23}})^2} \\ \end{array} \right]= \left[ \begin{array}{} a_{11}(1-a_{11}) & 0 \\ 0 & a_{21}(1-a_{21}) \\ \end{array} \right]

同理可得到：

\frac{\partial a^{n+1}_1}{\partial z^{n+1}_2}=\left[ \begin{array}{} -a_{11}a_{12} & 0 \\ 0 & -a_{21}a_{22} \\ \end{array} \right], \frac{\partial a^{n+1}_1}{\partial z^{n+1}_3}=\left[ \begin{array}{} -a_{11}a_{13} & 0 \\ 0 & -a_{21}a_{23} \\ \end{array} \right]

$\frac{\partial a^{n+1}_2}{\partial z^{n+1}_1}=\left[ \begin{array}{} -a_{11}a_{12} & 0 \\ 0 & -a_{21}a_{22} \\ \end{array} \right]\\ \frac{\partial a^{n+1}_2}{\partial z^{n+1}_2}=\left[ \begin{array}{} a_{12}(1-a_{12}) & 0 \\ 0 & a_{22}(1-a_{22}) \\ \end{array} \right]\\ \frac{\partial a^{n+1}_2}{\partial z^{n+1}_3}=\left[ \begin{array}{} -a_{12}a_{13} & 0 \\ 0 & -a_{22}a_{23} \\ \end{array} \right]$

$\frac{\partial a^{n+1}_3}{\partial z^{n+1}_1}=\left[ \begin{array}{} -a_{11}a_{13} & 0 \\ 0 & -a_{21}a_{23} \\ \end{array} \right]\\ \frac{\partial a^{n+1}_3}{\partial z^{n+1}_2}=\left[ \begin{array}{} -a_{13}a_{12} & 0 \\ 0 & -a_{23}a_{22} \\ \end{array} \right]\\ \frac{\partial a^{n+1}_3}{\partial z^{n+1}_3}=\left[ \begin{array}{} a_{13}(1-a_{13}) & 0 \\ 0 & a_{23}(1-a_{23}) \\ \end{array} \right]$

把上述求导结果带入式（1）,并乘以 $-\frac{1}{2}$ ，得到：

$dZ^{n+1}=\frac{1}{2}(A-Y)$

维度验证

单个神经元： $dz^{n+1}_1=da^{n+1}_1\frac{\partial a^{n+1}_1}{\partial z^{n+1}_1}=[1,2][2,2]=[1,2]$
这一层： $dZ^{n+1}$ 就是[3,2],有三个类别（神经元），两个样本。

综上，可以得到如下结论: 结论二：如果输出层激活函数为 $softmax$ ，损失函数为交叉熵损失，则误差对输出层线性组合Z的梯度： $dZ=\frac{1}{m}(A-Y)$ $m$ 表示样本的个数， $A$ 是 $softmax$ 层的激活输出， $Y$ 是基于one-hot编码的样本真实概率分布。

当激活函数g!=softmax，损失函数 $J$ 为交叉熵时

由上图可知，第 $n$ 层的激活函数 $g!=softmax$ ，第1个神经元线性输出 $z^{n}_1$ 会通过以下连锁变化改变损失函数的值。

$z^{n}_1-->a^{n}_1-->(z^{n+1}_1,z^{n+1}_2,z^{n+1}_3)-->(a^{n+1}_1,a^{n+1}_2,a^{n+1}_3)-->J$

\begin{align} dz^{n}_1= &\frac{\partial J}{\partial a^{n+1}_3} \frac{\partial a^{n+1}_3}{\partial z^{n+1}_1} \frac{\partial z^{n+1}_1}{\partial a^n_1} \frac{\partial a^n_1}{\partial z^n_1}+ \frac{\partial J}{\partial a^{n+1}_3} \frac{\partial a^{n+1}_3}{\partial z^{n+1}_2} \frac{\partial z^{n+1}_2}{\partial a^n_1} \frac{\partial a^n_1}{\partial z^n_1}+ \frac{\partial J}{\partial a^{n+1}_3} \frac{\partial a^{n+1}_3}{\partial z^{n+1}_3} \frac{\partial z^{n+1}_3}{\partial a^n_1} \frac{\partial a^n_1}{\partial z^n_1}+\\ &\frac{\partial J}{\partial a^{n+1}_2} \frac{\partial a^{n+1}_2}{\partial z^{n+1}_1} \frac{\partial z^{n+1}_1}{\partial a^n_1} \frac{\partial a^n_1}{\partial z^n_1}+ \frac{\partial J}{\partial a^{n+1}_2} \frac{\partial a^{n+1}_2}{\partial z^{n+1}_2} \frac{\partial z^{n+1}_2}{\partial a^n_1} \frac{\partial a^n_1}{\partial z^n_1}+ \frac{\partial J}{\partial a^{n+1}_2} \frac{\partial a^{n+1}_2}{\partial z^{n+1}_3} \frac{\partial z^{n+1}_3}{\partial a^n_1} \frac{\partial a^n_1}{\partial z^n_1}+ \\ &\frac{\partial J}{\partial a^{n+1}_1} \frac{\partial a^{n+1}_1}{\partial z^{n+1}_1} \frac{\partial z^{n+1}_1}{\partial a^n_1} \frac{\partial a^n_1}{\partial z^n_1}+ \frac{\partial J}{\partial a^{n+1}_1} \frac{\partial a^{n+1}_1}{\partial z^{n+1}_2} \frac{\partial z^{n+1}_2}{\partial a^n_1} \frac{\partial a^n_1}{\partial z^n_1}+ \frac{\partial J}{\partial a^{n+1}_1} \frac{\partial a^{n+1}_1}{\partial z^{n+1}_3} \frac{\partial z^{n+1}_3}{\partial a^n_1} \frac{\partial a^n_1}{\partial z^n_1} \end{align}

分析上式，可以发现：

这个式子水平三个式子代表红色的线，竖直代表蓝色的线，也就是蓝色括号，可以按照最上面的公式化简，如下图

定义第 n+1 层的局部梯度： $dz^{n+1}_k = \frac{\partial J}{\partial z^{n+1}_k} = \frac{\partial J}{\partial a^{n+1}_k} \cdot \frac{\partial a^{n+1}_k}{\partial z^{n+1}_k}$

得到： $dz^n_1=(dz^{n+1}_1\frac{\partial z^{n+1}_1}{\partial a^n_1}+dz^{n+1}_2\frac{\partial z^{n+1}_2}{\partial a^n_1}+dz^{n+1}_3\frac{\partial z^{n+1}_3}{\partial a^n_1})\frac{\partial a^n_1}{\partial z^n_1}$

同理，可以推出：

$dz^n_2=(dz^{n+1}_1\frac{\partial z^{n+1}_1}{\partial a^n_2}+dz^{n+1}_2\frac{\partial z^{n+1}_2}{\partial a^n_2}+dz^{n+1}_3\frac{\partial z^{n+1}_3}{\partial a^n_2})\frac{\partial a^n_2}{\partial z^n_2}$

$dz^n_3=(dz^{n+1}_1\frac{\partial z^{n+1}_1}{\partial a^n_3}+dz^{n+1}_2\frac{\partial z^{n+1}_2}{\partial a^n_3}+dz^{n+1}_3\frac{\partial z^{n+1}_3}{\partial a^n_3})\frac{\partial a^n_3}{\partial z^n_3}$

$dz^n_4=(dz^{n+1}_1\frac{\partial z^{n+1}_1}{\partial a^n_4}+dz^{n+1}_2\frac{\partial z^{n+1}_2}{\partial a^n_4}+dz^{n+1}_3\frac{\partial z^{n+1}_3}{\partial a^n_4})\frac{\partial a^n_4}{\partial z^n_4}$

列出前面（给定数据计算）给定的数据：

W^{n+1}= \left[ \begin{array}{} w_1 & w_2 & w_3 & w_4 \\ w_5 & w_6 & w_7 & w_8 \\ w_9 & w_{10} & w_{11} & w_{12} \\ \end{array} \right], B^{n+1}= \left[ \begin{array}{} b_1 \\ b_2 \\ b_3 \\ \end{array} \right], A^n= \left[ \begin{array}{} a^n_1 \\ a^n_2 \\ a^n_3 \\ a^n_4 \\ \end{array} \right]= \left[ \begin{array}{} a_{11} & a_{21} \\ a_{12} & a_{22} \\ a_{13} & a_{23} \\ a_{14} & a_{24} \\ \end{array} \right]

向量的求导法则，可以推出：

\begin{align} Z^{n+1} &=W^{n+1}A^n+B^{n+1} \\ &= \left[ \begin{array}{} z^{n+1}_1 \\ z^{n+1}_2 \\ z^{n+1}_3 \\ \end{array} \right]= \left[ \begin{array}{} z_{11} & z_{21} \\ z_{12} & z_{22} \\ z_{13} & z_{23} \\ \end{array} \right]\\ &= \left[ \begin{array}{} w_1a_{11}+w_2a_{12}+w_3a_{13}+w_4a_{14}+b_1 & w_1a_{21}+w_2a_{22}+w_3a_{23}+w_4a_{24}+b_1 \\ w_5a_{11}+w_6a_{12}+w_7a_{13}+w_8a_{14}+b_2 & w_5a_{21}+w_6a_{22}+w_7a_{23}+w_8a_{24}+b_2 \\ w_9a_{11}+w_{10}a_{12}+w_{11}a_{13}+w_{12}a_{14}+b_3 & w_9a_{21}+w_{10}a_{22}+w_{11}a_{23}+w_{12}a_{24}+b_3 \\ \end{array} \right] \end{align}

应用向量的求导法则，可以推出：

第 $n+1$ 层神经元线性输出 $z^{n+1}_k$ 对第 $n$ 层激活值 $a^n_1$ 的偏导数

\frac{\partial z^{n+1}_1}{\partial a^n_1}= \left[ \begin{array}{} \frac{\partial z_{11}}{\partial a_{11}} & \frac{\partial z_{11}}{\partial a_{21}}\\ \frac{\partial z_{21}}{\partial a_{11}} & \frac{\partial z_{21}}{\partial a_{21}}\\ \end{array} \right]= \left[ \begin{array}{} w_1 & 0 \\ 0 & w_1 \\ \end{array} \right], \frac{\partial z^{n+1}_2}{\partial a^n_1}= \left[ \begin{array}{} \frac{\partial z_{12}}{\partial a_{11}} & \frac{\partial z_{12}}{\partial a_{21}}\\ \frac{\partial z_{22}}{\partial a_{11}} & \frac{\partial z_{22}}{\partial a_{21}}\\ \end{array} \right]= \left[ \begin{array}{} w_5 & 0 \\ 0 & w_5 \\ \end{array} \right],\\ \frac{\partial z^{n+1}_3}{\partial a^n_1}= \left[ \begin{array}{} \frac{\partial z_{13}}{\partial a_{11}} & \frac{\partial z_{13}}{\partial a_{21}}\\ \frac{\partial z_{23}}{\partial a_{11}} & \frac{\partial z_{23}}{\partial a_{21}}\\ \end{array} \right]= \left[ \begin{array}{} w_9 & 0 \\ 0 & w_9 \\ \end{array} \right]

第 n 层第2、3、4个神经元的梯度（类似推导）

\frac{\partial z^{n+1}_1}{\partial a^n_2}= \left[ \begin{array}{} \frac{\partial z_{11}}{\partial a_{12}} & \frac{\partial z_{11}}{\partial a_{22}}\\ \frac{\partial z_{21}}{\partial a_{12}} & \frac{\partial z_{21}}{\partial a_{22}}\\ \end{array} \right]= \left[ \begin{array}{} w_2 & 0 \\ 0 & w_2 \\ \end{array} \right], \frac{\partial z^{n+1}_2}{\partial a^n_2}= \left[ \begin{array}{} \frac{\partial z_{12}}{\partial a_{12}} & \frac{\partial z_{12}}{\partial a_{22}}\\ \frac{\partial z_{22}}{\partial a_{12}} & \frac{\partial z_{22}}{\partial a_{22}}\\ \end{array} \right]= \left[ \begin{array}{} w_6 & 0 \\ 0 & w_6 \\ \end{array} \right],\\ \frac{\partial z^{n+1}_3}{\partial a^n_2}= \left[ \begin{array}{} \frac{\partial z_{13}}{\partial a_{12}} & \frac{\partial z_{13}}{\partial a_{22}}\\ \frac{\partial z_{23}}{\partial a_{12}} & \frac{\partial z_{23}}{\partial a_{22}}\\ \end{array} \right]= \left[ \begin{array}{} w_{10} & 0 \\ 0 & w_{10} \\ \end{array} \right]

\frac{\partial z^{n+1}_1}{\partial a^n_3}= \left[ \begin{array}{} \frac{\partial z_{11}}{\partial a_{13}} & \frac{\partial z_{11}}{\partial a_{23}}\\ \frac{\partial z_{21}}{\partial a_{13}} & \frac{\partial z_{21}}{\partial a_{23}}\\ \end{array} \right]= \left[ \begin{array}{} w_3 & 0 \\ 0 & w_3 \\ \end{array} \right], \frac{\partial z^{n+1}_2}{\partial a^n_3}= \left[ \begin{array}{} \frac{\partial z_{12}}{\partial a_{13}} & \frac{\partial z_{12}}{\partial a_{23}}\\ \frac{\partial z_{22}}{\partial a_{13}} & \frac{\partial z_{22}}{\partial a_{23}}\\ \end{array} \right]= \left[ \begin{array}{} w_7 & 0 \\ 0 & w_7 \\ \end{array} \right],\\ \frac{\partial z^{n+1}_3}{\partial a^n_3}= \left[ \begin{array}{} \frac{\partial z_{13}}{\partial a_{13}} & \frac{\partial z_{13}}{\partial a_{23}}\\ \frac{\partial z_{23}}{\partial a_{13}} & \frac{\partial z_{23}}{\partial a_{23}}\\ \end{array} \right]= \left[ \begin{array}{} w_{11} & 0 \\ 0 & w_{11} \\ \end{array} \right]

\frac{\partial z^{n+1}_1}{\partial a^n_4}= \left[ \begin{array}{} \frac{\partial z_{11}}{\partial a_{14}} & \frac{\partial z_{11}}{\partial a_{24}}\\ \frac{\partial z_{21}}{\partial a_{14}} & \frac{\partial z_{21}}{\partial a_{24}}\\ \end{array} \right]= \left[ \begin{array}{} w_4 & 0 \\ 0 & w_4 \\ \end{array} \right], \frac{\partial z^{n+1}_2}{\partial a^n_3}= \left[ \begin{array}{} \frac{\partial z_{12}}{\partial a_{14}} & \frac{\partial z_{12}}{\partial a_{24}}\\ \frac{\partial z_{22}}{\partial a_{14}} & \frac{\partial z_{22}}{\partial a_{24}}\\ \end{array} \right]= \left[ \begin{array}{} w_8 & 0 \\ 0 & w_8 \\ \end{array} \right],\\ \frac{\partial z^{n+1}_3}{\partial a^n_3}= \left[ \begin{array}{} \frac{\partial z_{13}}{\partial a_{14}} & \frac{\partial z_{13}}{\partial a_{24}}\\ \frac{\partial z_{23}}{\partial a_{14}} & \frac{\partial z_{23}}{\partial a_{24}}\\ \end{array} \right]= \left[ \begin{array}{} w_{12} & 0 \\ 0 & w_{12} \\ \end{array} \right]

结合 $dz^n_1,dz^n_2,dz^n_3,dz^n_4$ 的计算公式：

第 $n$ 层第1个神经元的梯度

dz^n_1 = \left( dz^{n+1}_1 \frac{\partial z^{n+1}_1}{\partial a^n_1} + dz^{n+1}_2 \frac{\partial z^{n+1}_2}{\partial a^n_1} + dz^{n+1}_3 \frac{\partial z^{n+1}_3}{\partial a^n_1} \right) \frac{\partial a^n_1}{\partial z^n_1} \\ = \left( dz^{n+1}_1 \begin{bmatrix} w_1 & 0 \\ 0 & w_1 \end{bmatrix} + dz^{n+1}_2 \begin{bmatrix} w_5 & 0 \\ 0 & w_5 \end{bmatrix} + dz^{n+1}_3 \begin{bmatrix} w_9 & 0 \\ 0 & w_9 \end{bmatrix} \right) \frac{\partial a^n_1}{\partial z^n_1}

维度计算： $([1,2][2,2])*[2,2]=[1,2]$ ,注意 $∂a^n_1/∂z^n_1$ （2x2 的对角矩阵）

第 $n$ 层第2、3、4个神经元的梯度（类似推导）

dz^n_2 = \left( dz^{n+1}_1 \begin{bmatrix} w_2 & 0 \\ 0 & w_2 \end{bmatrix} + dz^{n+1}_2 \begin{bmatrix} w_6 & 0 \\ 0 & w_6 \end{bmatrix} + dz^{n+1}_3 \begin{bmatrix} w_{10} & 0 \\ 0 & w_{10} \end{bmatrix} \right) \frac{\partial a^n_2}{\partial z^n_2}

dz^n_3 = \left( dz^{n+1}_1 \begin{bmatrix} w_3 & 0 \\ 0 & w_3 \end{bmatrix} + dz^{n+1}_2 \begin{bmatrix} w_7 & 0 \\ 0 & w_7 \end{bmatrix} + dz^{n+1}_3 \begin{bmatrix} w_{11} & 0 \\ 0 & w_{11} \end{bmatrix} \right) \frac{\partial a^n_3}{\partial z^n_3}

dz^n_4 = \left( dz^{n+1}_1 \begin{bmatrix} w_4 & 0 \\ 0 & w_4 \end{bmatrix} + dz^{n+1}_2 \begin{bmatrix} w_8 & 0 \\ 0 & w_8 \end{bmatrix} + dz^{n+1}_3 \begin{bmatrix} w_{12} & 0 \\ 0 & w_{12} \end{bmatrix} \right) \frac{\partial a^n_4}{\partial z^n_4}

又因为损失函数 $J$ 对 $Z^{n+1}$ 的梯度：

dZ^{n+1}= \left[ \begin{array}{} dz^{n+1}_1 \\ dz^{n+1}_2 \\ dz^{n+1}_3 \\ \end{array} \right]= \left[ \begin{array}{} dz_{11} & dz_{21} \\ dz_{12} & dz_{22} \\ dz_{13} & dz_{23} \\ \end{array} \right]

带入 $dz^n_1,dz^n_2,dz^n_3,dz^n_4$ 可得：

$dz^n_1= \left[ \begin{array}{} w_1dz_{11}+w_5dz_{12}+w_9dz_{13} & w_1dz_{21}+w_5dz_{22}+w_9dz_{23}\\ \end{array} \right]\frac{\partial a^{n}_1}{\partial z^n_1}$

$dz^n_2= \left[ \begin{array}{} w_2dz_{11}+w_6dz_{12}+w_{10}dz_{13} & w_2dz_{21}+w_6dz_{22}+w_{10}dz_{23}\\ \end{array} \right]\frac{\partial a^{n}_2}{\partial z^n_2}$

$dz^n_3= \left[ \begin{array}{} w_3dz_{11}+w_7dz_{12}+w_{11}dz_{13} & w_3dz_{21}+w_7dz_{22}+w_{11}dz_{23}\\ \end{array} \right]\frac{\partial a^{n}_3}{\partial z^n_3}$

$dz^n_4= \left[ \begin{array}{} w_4dz_{11}+w_8dz_{12}+w_{12}dz_{13} & w_4dz_{21}+w_8dz_{22}+w_{12}dz_{23}\\ \end{array} \right]\frac{\partial a^{n}_4}{\partial z^n_4}$

又因为： $A^n$ 是第 $n$ 层的激活值矩阵，由该层的线性输出 $Z^n$ 经过逐元素（element-wise）激活函数 $g(\cdot)$ 计算得到。具体来说： $A^n=g(Z^n)=g( \left[ \begin{array}{} z^n_1 \\ z^n_2 \\ z^n_3 \\ z^n_4 \\ \end{array} \right])= \left[ \begin{array}{} g(z^n_1) \\ g(z^n_2) \\ g(z^n_3) \\ g(z^n_4) \\ \end{array} \right]= \left[ \begin{array}{} a^n_1 \\ a^n_2 \\ a^n_3 \\ a^n_4 \\ \end{array} \right]$

其中 $a^n_i = g(z^n_i)$ 是第 $i$ 个神经元的激活值（仍为 $1 \times 2$ 向量，对应 2 个样本），这一层输出维度依然是[4.2]，一个神经元是输出是[1,2]，但是他的反向求导是[2,2]的对称矩阵。

所以： $\partial\frac{g(Z^n)}{Z^n}= \left[ \begin{array}{} \frac{\partial a^{n}_1}{\partial z^n_1}\\ \frac{\partial a^{n}_2}{\partial z^n_2} \\ \frac{\partial a^{n}_3}{\partial z^n_3} \\ \frac{\partial a^{n}_4}{\partial z^n_4} \\ \end{array} \right]$ 在反向传播中， $\frac{\partial A^n}{\partial Z^n}$ 是一个对角矩阵（因为 $g$ 是逐元素的）

示例（ReLU 激活函数） 假设 $g(z) = \text{ReLU}(z) = \max(0, z)$ ，且：

Z^n = \begin{bmatrix} 1.0 & -0.5 \\ -2.0 & 3.0 \\ 0.0 & 0.5 \\ 0.5 & -1.0 \\ \end{bmatrix}

则：

A^n = \text{ReLU}(Z^n) = \begin{bmatrix} \max(0, 1.0) & \max(0, -0.5) \\ \max(0, -2.0) & \max(0, 3.0) \\ \max(0, 0.0) & \max(0, 0.5) \\ \max(0, 0.5) & \max(0, -1.0) \\ \end{bmatrix} = \begin{bmatrix} 1.0 & 0.0 \\ 0.0 & 3.0 \\ 0.0 & 0.5 \\ 0.5 & 0.0 \\ \end{bmatrix}

每一行对应一个神经元的输出（如 $z^n_1 = [z_{11}, z_{12}]$ 是第 1 个神经元对 2 个样本的线性输出）。
每一列对应一个样本（如第 1 列 $[z_{11}, z_{21}, z_{31}, z_{41}]^T$ 是第一个样本在 4 个神经元上的输出）。

维度验证：

含义：第n层的输出

这一层： $dZ^n = \begin{bmatrix} dz^n_1 \\ dz^n_2 \\ dz^n_3 \\ dz^n_4 \end{bmatrix} = \left( (W^{n+1})^T \cdot dZ^{n+1} \right) \odot \frac{\partial g(Z^n)}{\partial Z^n}=[4, 3][3, 2]=[4, 2]$
- $(W^{n+1})^T.shape=[4, 3]$
- $dZ^{n+1}.shape=[3, 2]$
- $\partial\frac{g(Z^n)}{Z^n}.shape=[4,2]$

单个神经元梯度验证：

梯度计算：每个神经元 $dz^n_i$ 的梯度由权重与上层梯度的线性组合构成，

例如第一个神经元： $dz^n_1 = \left( w_1 \cdot dz^{n+1}_1 + w_5 \cdot dz^{n+1}_2 + w_9 \cdot dz^{n+1}_3 \right) \odot \frac{\partial a^n_1}{\partial z^n_1}\\=[1,2][2,2]*[2,2]=[1,2]$
逐元素乘法： $\frac{\partial a^n_1}{\partial z^n_1}$ 维度为 $[1 \times 2]$ 。
输出维度： $dz^n_1$ 维度为 $[1 \times 2]$ ，符合逐样本梯度计算,就是一个神经元输出两个样本。

前向传播维度验证：

输入：第 $n$ 层激活值 $A^n$ 维度为 $[4 \times 2]$ （4 个神经元，2 个样本）。
权重矩阵： $W^{n+1}$ 维度为 $[3 \times 4]$ ，偏置 $B^{n+1}$ 维度为 $[3 \times 1]$ 。
线性输出： $Z^{n+1} = W^{n+1}A^n + B^{n+1}=[4 \times 2][3 \times 4]=[3 \times 2]$ ，维度为 $[3 \times 2]$ （3 个神经元，2 个样本）。

所以得到一下结论：

前向传播： $Z^{n+1} = W^{n+1}A^n + B^{n+1}$ ，维度从 $[4 \times 2]$ 转换为 $[3 \times 2]$ 。
反向传播： $dZ^n = \left( (W^{n+1})^T \cdot dZ^{n+1} \right) \odot \frac{\partial g(Z^n)}{\partial Z^n}$ ，维度从 $[3 \times 2]$ 恢复为 $[4 \times 2]$ ，确保梯度逐层回传。
维度验证总结：单个神经元梯度： $dz^n_i$ 的维度为 $[1 \times 2]$ ，符合逐样本梯度计算。整体梯度矩阵： $dZ^n$ 维度为 $[4 \times 2]$ ，与 $Z^n$ 一致，验证了反向传播公式的维度正确性。

分析 $dz^n_1,dz^n_2,dz^n_3,dz^n_3,\partial\frac{g(Z^n)}{Z^n}$ 的最终形式，利用矩阵的乘法规则，可以得到如下结论： 结论三：如果全连接层的激活函数 $g$ 不是 $softmax$ ，损失函数为交叉熵损失，则误差对线性组合Z的梯度：

$dZ^n = \begin{bmatrix} dz^n_1 \\ dz^n_2 \\ dz^n_3 \\ dz^n_4 \end{bmatrix} = \left( (W^{n+1})^T \cdot dZ^{n+1} \right) \odot \frac{\partial g(Z^n)}{\partial Z^n}$

其中 $g$ 表示激活函数，可以是relu或者tan。符号*表示左右2个矩阵的对应元素相乘，结果是同样大小的矩阵。

反向传播

1 - 神经网络的反向传播

给定数据计算：

向量的求导法则，可以推出：

维度验证

2 - 误差对全连接层线性输出的梯度

当激活函数g=softmaxg=softmaxg=softmax、损失函数JJJ为交叉熵时

按照向量的求导法则，可以得到以下结果：

维度验证

当激活函数g!=softmax，损失函数JJJ为交叉熵时

列出前面（给定数据计算）给定的数据：

向量的求导法则，可以推出：

维度验证：

当激活函数 $g=softmax$ 、损失函数 $J$ 为交叉熵时

当激活函数g!=softmax，损失函数 $J$ 为交叉熵时