深度学习-BP的链式求导、梯度爆炸和梯度消失首先来思考一下，一个简单的DNN中，梯度与哪些因素有关？先来一个简单的3层

首先来思考一下，一个简单的DNN中，梯度与哪些因素有关？

先来一个简单的3层神经网络

h_i = \sigma(u_i) = \sigma(\sum_{k=1}^{K}w_{ki}x_k+b_i)

h_j^{'} = \sigma(u_j^{'})=\sigma(\sum_{i=1}^{I}w_{ij}^{'}h_i+b_j)

E = CE(y_j;h_j^{'}) = y_jlog(h_j^{'}) + (1 - y_j)log(1-h_j^{'})

\frac {\delta E}{\delta w_{ij}^{'}} = \frac {\delta E}{\delta h_j^{'}}\frac {\delta h_j^{'}}{\delta u_j^{'}}\frac {\delta u_j^{'}}{\delta w_{ij}^{'}}

一共三个部分，一个部分一个部分来

交叉熵求导

\frac {\delta E}{\delta h_j^{'}} = \frac { (y_j)}{h_j^{'}}\frac { (y_j)}{(1- h_j^{'})} = \frac {y_j - h_j^{'}}{{h_j^{'}}(1- h_j^{'})}

激活函数求导（假设是sigmoid）

\frac {\delta h_j^{'}}{\delta u_j^{'}} = h_j^{'}(1-h_j^{'})

最后对权重求导

\frac {\delta u_j^{'}}{\delta w_{ij}^{'}} = h_i

三个部分合并到一起即为第二层的权重

\frac {\delta E}{\delta w_{ij}^{'}} = (y_j - h_j^{'})h_i

可以看到该层的权重与输入值 $h_i$ 、输出值 $h_j^{'}$ 还有标签 $y_j$ 有关。

过程类似，结果为

\frac {\delta E}{\delta w_{ki}} = (y_j-h_j^{'})w_{ij}^{'}h_i(1-h_i)x_{ki}

可以看到，某一层的梯度与

这里可以引申出为什么会梯度爆炸/梯度消失爆炸：