优化方法 - 梯度下降算法

204 阅读6分钟

在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。

1. 梯度的概念

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。

在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)或者▽f(x,y)。对于在点(x0,y0)的具体梯度向量就是(∂f/∂x0, ∂f/∂y0)T.或者▽f(x0,y0),如果是3个参数的向量梯度,就是(∂f/∂x, ∂f/∂y,∂f/∂z)T,以此类推。

从几何意义上讲,就是函数变化增加最快的地方。具体来说,对于函数f(x,y),在点(x0,y0),沿着梯度向量的方向就是(∂f/∂x0, ∂f/∂y0)T的方向是f(x,y)增加最快的地方。

沿着梯度向量的方向,更加容易找到函数的最大值。反过来说,沿着梯度向量相反的方向,也就是 -(∂f/∂x0, ∂f/∂y0)T的方向(也就是常说的负梯度方向),梯度减少最快,也就是更加容易找到函数的最小值。

2. 梯度下降与梯度上升

在机器学习算法中,在最小化损失函数时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数,和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时就需要用梯度上升法来迭代了。

梯度下降法和梯度上升法是可以互相转化的。比如我们需要求解损失函数f(θ)的最小值,这时我们需要用梯度下降法来迭代求解。但是实际上,我们可以反过来求解损失函数 -f(θ)的最大值,这时梯度上升法就派上用场了。

3. 梯度下降算法详解

3.1 梯度下降的直观解释

首先来看看梯度下降的一个直观的解释。比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步,然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去,一直走到觉得我们已经到了山脚。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山峰低处。

从上面的解释可以看出,梯度下降不一定能够找到全局的最优解,有可能是一个局部最优解。当然,如果损失函数是凸函数,梯度下降法得到的解就一定是全局最优解。

3.2 梯度下降的相关概念

步长 :步长决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。用上面下山的例子,步长就是在当前这一步所在位置沿着最陡峭最易下山的位置走的那一步的长度。

特征 :指的是样本中输入部分,比如2个单特征的样本(x(0),y(0)),(x(1),y(1)),则第一个样本特征为x(0),第一个样本输出为y(0)。

假设函数 :在监督学习中,为了拟合输入样本,而使用的假设函数,记为f(wxi+b)f(wx_i + b)

损失函数 :为了评估模型拟合的好坏,通常用损失函数来度量拟合的程度。损失函数极小化,意味着拟合程度最好,对应的模型参数即为最优参数。在回归问题中,损失函数通常为样本输出和假设函数的差取平方。比如常见的均方误差损失函数:

L(w,b)=1Ni=1N(yif(wxi+b))2L(w,b)=\frac{1}{N}\sum_{i=1}^N(y_i-f(wx_i+b))^2

3.3 梯度下降的详细算法

  1. 先决条件: 确认优化模型的假设函数(即已经从假设空间中选择了假设函数)和损失函数。这里的θ0θ_0对应上节中的b,也就是偏差,θ1,θ2,....θ_1,θ_2,....代表上式中的w,代表权重(多个)。

  2. 算法相关参数初始化:主要是初始化θ0,θ1...,θnθ_0,θ_1...,θ_n,算法终止距离εε以及步长αα。在没有任何先验知识的时候,我喜欢将所有的θθ初始化为0, 将步长初始化为1。在调优的时候再优化。

  • 算法过程:1.确定当前位置的损失函数的梯度,对于θiθ_i,其梯度表达式如下:
θiJ(θ0,θ1,θn)\frac{\partial}{\partial\theta_{i}}J(\theta_{0},\theta_{1}\ldots,\theta_{n})
  • 2.用步长乘以损失函数的梯度,得到当前位置下降的距离,即αθiJ(θ0,θ1,θn)\alpha\frac{\partial}{\partial\theta_{i}}J(\theta_{0},\theta_{1}\ldots,\theta_{n})对应于前面登山例子中的某一步。
  • 3.确定是否所有的θiθ_i,梯度下降的距离都小于εε,如果小于εε则算法终止,当前所有的θiθ_i即为最终结果。否则进入步骤4.
  • 4.更新所有的θ,对于θiθ_i,其更新表达式如下。更新完毕后继续转入步骤1.
θi=θiαθiJ(θ0,θ1,θn)\theta_{i}=\theta_{i}-\alpha\frac{\partial}{\partial\theta_{i}}J(\theta_{0},\theta_{1}\ldots,\theta_{n})

4. 其他梯度下降算法

4.1 小批量样本梯度下降(Mini Batch GD)

这个算法在每次梯度下降的过程中,只选取一部分的样本数据进行计算梯度,比如整体样本1/100的数据。在数据量较大的项目中,可以明显地减少梯度计算的时间。

以线性回归为例,设选取m个数据:

预测函数为:

hθ(x)=θTxh_\theta(x)=\theta^Tx

代价函数为:

Jtrain(θ)=12mi=1m(h(x(i))y(i))2J_{train}(\theta)=\dfrac{1}{2m}\sum_{i=1}^m(h_\emptyset(x^{(i)})-y^{(i)})^2

迭代:

θj:=θjα(1mi=1m(hθ(x(i))y(i))xj(i))\theta_j:=\theta_j-\alpha\left(\dfrac{1}{m}\sum\limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}\right)

4.2 随机梯度下降(Stochastic GD)

随机梯度下降算法只随机抽取一个样本进行梯度计算,由于每次梯度下降迭代只计算一个样本的梯度,因此运算时间比小批量样本梯度下降算法还要少很多,但由于训练的数据量太小(只有一个),因此下降路径很容易受到训练数据自身噪音的影响,看起来就像醉汉走路一样,变得歪歪斜斜的。

代价函数变为:

cost(θ,(x(i),y(i)))=12(hθ(x(i))y(i))2cost(\theta,(x^{(i)},y^{(i)}))=\dfrac{1}{2}(h_\theta(x^{(i)})-y^{(i)})^2

然后对随机打乱的训练集样本进行循环迭代。


其余算法待更新。。。