Softmax + Cross-Entropy 损失函数偏导数求导过程Softmax + Cross-Entropy 损

求Loss对logits（z）的偏导数，即 $\frac{\partial L}{\partial z_i}$

假设模型输出的logits 为 $z_i$

softmax输出为： $a_i = \text{softmax}(z)_i = \frac{e^{z_i}}{\sum_{k} e^{z_k}}$

Loss: $L = - \sum_{k} y_k \ln(a_k)$

根据链式法则：

这里的求和符号是softmax分母里面的

$\frac{\partial L}{\partial z_i} = \sum_{j} \frac{\partial L}{\partial a_j} \cdot \frac{\partial a_j}{\partial z_i}$

第一步对：Loss对 $a_j$ 的求导，即对corss-Entropy求导

$L = - \sum_{k} y_k \ln(a_k)$

对 $a_j$ 求导非常简单（只有当 $k=j$ 时那一项不为 0）：

$\frac{\partial L}{\partial a_j} = - \frac{y_j}{a_j}$

第二步：求 Softmax 对 $z$ 的偏导 ( $\frac{\partial a_j}{\partial z_i}$ )

这是最复杂的一步。回忆 Softmax 公式： $a_j = \frac{e^{z_j}}{\sum_{k} e^{z_k}}$ 。

令 $\Sigma = \sum_{k} e^{z_k}$ ，则 $a_j = \frac{e^{z_j}}{\Sigma}$ 。

开始求导，根据商的求导公式对 $a_j = \frac{e^{z_j}}{\Sigma}$ 求导，注意这里 ${\Sigma}$ 里面是有 ${a_i}$ 的，且j可能和i相等，因此分情况讨论:

i = j 时：

$\begin{aligned} \frac{\partial a_i}{\partial z_i} &= \frac{(e^{z_i})' \Sigma - e^{z_i} (\Sigma)'}{\Sigma^2} \\ &= \frac{e^{z_i} \Sigma - e^{z_i} e^{z_i}}{\Sigma^2} \\ &= \frac{e^{z_i}}{\Sigma} \cdot \frac{\Sigma - e^{z_i}}{\Sigma} \\ &= a_i (1 - a_i) \end{aligned}$

这个是类指数函数，化简想办法往原函数 $a_j = \frac{e^{z_j}}{\Sigma}$ 上去化简。

i = j 时：

$\begin{aligned} \frac{\partial a_j}{\partial z_i} &= \frac{0 \cdot \Sigma - e^{z_j} e^{z_i}}{\Sigma^2} \\ &= - \frac{e^{z_j}}{\Sigma} \cdot \frac{e^{z_i}}{\Sigma} \\ &= - a_j a_i \end{aligned}$

第三步合并

$\frac{\partial L}{\partial z_i} = \sum_{j} \frac{\partial L}{\partial a_j} \frac{\partial a_j}{\partial z_i}$

将求和分为 $j=i$ 和 $j \neq i$ 两部分：

$\frac{\partial L}{\partial z_i} = \underbrace{\frac{\partial L}{\partial a_i} \frac{\partial a_i}{\partial z_i}}_{j=i} + \underbrace{\sum_{j \neq i} \frac{\partial L}{\partial a_j} \frac{\partial a_j}{\partial z_i}}_{j \neq i}$

代入我们在第一步和第二步得到的结果：

$\begin{aligned} \frac{\partial L}{\partial z_i} &= \left( -\frac{y_i}{a_i} \right) \cdot a_i(1 - a_i) + \sum_{j \neq i} \left( -\frac{y_j}{a_j} \right) \cdot (-a_j a_i) \\ &= -y_i(1 - a_i) + \sum_{j \neq i} y_j a_i \\ &= -y_i + y_i a_i + a_i \sum_{j \neq i} y_j \\ &= -y_i + a_i \left( y_i + \sum_{j \neq i} y_j \right) \end{aligned}$

这里有一个关键点： $y$ 是 One-hot 向量，所有 $y$ 的和为 1。

即 $\left( y_i + \sum_{j \neq i} y_j \right) = \sum_{\text{all}} y = 1$ 。

所以最终结果简化为：

$\frac{\partial L}{\partial z_i} = a_i - y_i$

最终结论

Softmax + Cross Entropy 的反向传播梯度就是：

$\text{Gradient} = \text{Prediction} - \text{Label}$

或者写作：

$\frac{\partial L}{\partial z_i} = \hat{y}_i - y_i$

物理意义：

这个结果非常直观。梯度的方向和大小完全取决于预测值 ( $\hat{y}_i$ ) 和真实值 ( $y_i$ ) 之间的差。