深度学习(八)梯度消失与激活函数

105 阅读1分钟

课程链接
在这里插入图片描述
只有当在训练数据上准确率高,而在测试数据上准确率很低时才是出现了过拟合现象。解决过拟合需要从模型上下手。
如果在训练数据上就表现的不好,那么应当是在模型训练上出了问题。

梯度消失

在这里插入图片描述
在网络中sigmoid会使输入值的作用变小,当层数越深,这种影响就越明显。这个问题也称为梯度消失。

为了解决这个问题,我们可以采用别的激活函数替代sigmoid函数。

ReLU和Maxout

ReLU函数也是一种激活函数,如下图所示。
在这里插入图片描述
如果用RELU作为激活函数,输入小于零的节点就都可以剔除,大于零则原值输出。
在这里插入图片描述
在这里插入图片描述

但是原值输出对于非线性的问题可能不是很有效,所以又出现了一些改良的版本。
在这里插入图片描述

后来更进一步,出现了Maxout函数,ReLU函数可以看做是它的一个特例。
Maxout函数就是 max{2or3个线性函数}。比如ReLU函数就是max{0,y=x}。
在这里插入图片描述
max函数实际上可以看做是剔除了一部分的节点,剩下的节点我们可以按照正常的神经网络来看待。
而且,由于训练数据有很多组,被max函数“剔除”的节点也一直在变化,所以理论上,所有节点还是可以被正常训练到。
在这里插入图片描述