复习梯度下降法

在回归问题中。我们需要找到最佳function，评判标准就是Loss（params）小越好。为了找到最小的Loss值，我们需要梯度下降法。

自适应学习率

在之前的学习中，我们的学习率η一直是固定值。

但是最适合的学习率并不是一成不变的，在实际情况中，不同的参数需要各自不同的学习率，并且我们通常都需要随着训练次数的增加而改变学习率的值。

定义：每个参数的学习率η都把他除以之前微分的均方根来进行更新。

自适应学习率.png 如图，对比了普通的梯度下降法和Adagrad算法的差异。

分母约掉之后，更新参数的式子变得十分简洁。

我们可以直观地看出，微分值越大，乘以的微分会使参数更新步长变得更大；但同时分母均方根的存在又会在微分值越大时令步长变小。这么看似乎两个因素中和了一下步长。 adagrad的矛盾之处.png

adagrad分母的含义.png 实际上，我们知道最好的步长是：一次微分/二次微分 但由于计算二次微分计算量过大，所以我们希望用均方根的形式模拟二次微分，在计算量不增大过多的同时模拟出最佳步长的情况。

以上，Adagrad算法。

定义：损失函数不需要处理完训练集全部的数据再更新参数，而是每处理完一组单独的个体数据之后就即可更新参数。

这种梯度下降法显然随机性更大，精度不高，但是下降得更快。例如训练集中有20组数据，正常梯度下降法处理完20组数据后下降一次，而随机梯度下降法这时候已经下降了20次。

如果不同维度的输入特征数值量级差距过大，则会导致不同的特征值对输出结果的影响权重不同，这时需要对不同维度的特征值进行缩放，以平衡各类特征值的影响权重。

特征缩放.png

梯度下降法停止的各种情况.png