P2-5 梯度下降

梯度下降法是一种常用的用来寻找代价函数J最小值的算法，也常用于其他回归函数，也广泛应用于深度学习。

问题描述：我们有一个代价函数J（q0，q1），想要得到使代价函数最小的q0、q1。

算法开始： 1、以一组q0，q1最为起点，它们到底是什么不重要。通常会选择（0,0） 2、算法会持续的修改（q0，q1）数值，计算J，直到得到J的最小值，或者局部最小值。

这个过程可以把3D图想象成一座山，有2个山峰，我们站在其中一个山峰上（起点）。我们想要尽快到达最低点。第一步：我们环绕四周，找一个最佳的下山方向，走一步，到达一个新点。重复第一步，每次前进一小步，直至收敛到局部最低点。

起点稍作偏移，按照同样的步骤和策略，可能到达另外一个局部最低点，这就是梯度下降算法的特点。

梯度下降公式

α用来表示，梯度下降时，每一步迈出多大的步子。 α后面是一个导数项，之后会推导。（这个公式就是微积分中的导数和导数项）

对这个梯度下降公式，要同时更新q0和q1的值。也就是，要先分别计算出temp0和temp1，再更新q0和q1。

P2-6 梯度下降公式中，α和导数项在更新过程中的意义

导数项

导数项就是指曲线中，某一点切线的斜率，如下图的红线斜率按上图第一个q1点，其斜率是一个正数（切线函数的y随x增大而增大），那么得到的导数项就是一个整数。梯度下降公式Qj迭代时，qj-α*正数，迭代所得的新q1比旧值小，往左边移动了，次数新q1更接近J（QJ）最小值。按上图第二个q2点，其斜率是负数，迭代后的q1右移，也更接近J（QJ）最小值。以上两次迭代符合预期。

学习率α

学习率α代表每次迈出的步长。当α太小时，从起点到最优点要花费更多的步数。当α太大时，可能会导致无法收敛甚至发散。如第二个图，第二个点斜率比第一个点大，迈出的实际不长比第一个点大，梯度下降逐渐发散。如果q1起点已经处在一个局部最优点，那么下一步会怎么样？局部最优点的切线斜率=0，是一条水平横线，即导数像=0，更新后的q1与旧q1值相同，位置没有变化。算法返回最优解。