1.梯度法

负梯度是一个可微函数的局部最速下降方向，沿此方向可以快速找到局部极小点。

梯度法
选择 $x_0 \in \mathbb{R}^n$ . 迭代 $x_{k+1} = x_{k} - h_k \nabla f(x_k)$ , k = 0,1,2,...

其中 $h_k$ 为步长，它必须为正数。

2.步长选择策略

有如下几种策略：
1.预先选择序列 $\{ h_k \}^{\infty}_{k=0}$ ,例如

\begin{aligned} h_k &= h \\ h_k &= \frac{h}{\sqrt{k+1}} \end{aligned}

2.全松弛(精确步长)

h_k = arg \; \underset{h \ge 0}{min} f(x_k - h \nabla f(x_k))

3. $\mathbf{Amijo}$ 规则：对 $h > 0$ ，确定 $x_{k+1} = x_k - h \nabla f(x_k)$ ，满足

\alpha \langle \nabla f(x_k) , x_k - x_{k+1} \rangle \le f(x_k) - f(x_{k+1}) \tag{1.2.16}

\beta \langle \nabla f(x_k) , x_k - x_{k+1} \rangle \ge f(x_k) - f(x_{k+1}) \tag{1.2.17}

其中 $0 < \alpha < \beta < 1$ .

第一种策略是最简单的，也常用于各种教材当中。
第二种策略是理论上的，实际上无法应用，因为即便在一维的情况下也无法在有限时间内找到最小的h
第三种策略用于很多实际的算法，从几何的角度来解释，取 $x \in \mathbb{R}^n$ 且 $\nabla f(x) \neq 0$ 时，考虑关于h的函数:

\phi(h) = f(x - h \nabla f(x)), h \ge 0

于是该策略可接受的步长介于下面两个线性函数之间：

\phi_1(h) = f(x) - \alpha h ||\nabla f(x)||^2 \\ \phi_2(h) = f(x) - \beta h ||\nabla f(x)||^2

这两个函数由(1.2.16)和(1.2.17)消去 $x_{k+1}$ 得到。

3.步长的最优选择

我们考虑 $y = x-h \nabla f(x)$ ，依据一些已有的结论公式，有

\begin{aligned} f(y) &\le f(x) + \langle \nabla f(x),y-x \rangle + \frac{L}{2}||y-x||^2 \\ &= f(x) - h||\nabla f(x)||^2 + \frac{h^2}{2}L||\nabla f(x)||^2 \\ &= f(x) - h(1-\frac{h}{2}L)||\nabla f(x)||^2 \tag{1.2.19} \end{aligned}

由此，我们希望得到一个 $f(y)$ 的最优上界 对应如下的一维问题：

\Delta(h) = -h(1-\frac{h}{2}L) \rightarrow \underset{h}{min}

利用简单的求导知识可以推知 $h^* = \frac{1}{L}$ 时取得最佳上界。此时有

f(y) \le f(x) - \frac{1}{2L}||\nabla f(x)||^2

对于定长的策略， $h_k = h$ ，接下来的分析就和上述过程一致，
最后推理得到最优的选择为 $h_k = \frac{1}{L}$

对于全松弛策略我们有同样的结论，因为这种策略不会比定长策略差

而对于 $\mathbf{Armijo}$ 规则，依据(1.2.17)有

f(x_k) - f(x_{k+1}) \le \beta \langle \nabla f(x_k) , x_k - x_{k+1} \rangle = \beta h_k||\nabla f(x_k)||^2

同时由(1.2.19)又能得到

f(x_k) - f(x_{k+1}) \ge h_k(1-\frac{h_k}{2}L)||\nabla f(x_k)||^2

结合上述两式，可以得到 $h_k \ge \frac{2}{L}(1-\beta)$
同理利用(1.2.16)能够得到

f(x_k) - f(x_{k+1}) \ge \alpha \langle \nabla f(x_k) , x_k - x_{k+1} \rangle = \alpha h_k||\nabla f(x_k)||^2

继续与 $h_k \ge \frac{2}{L}(1-\beta)$ 相结合，可以得到

f(x_k) - f(x_{k+1}) \ge \frac{2}{L} \alpha (1-\beta)||\nabla f(x_k)||^2

综合上述三种策略对应的结论，我们可以一般化地描述一个统一的结论

f(x_k) - f(x_{k+1}) \ge \frac{w}{L} ||\nabla f(x_k)||^2 \tag{1.2.20}

其中 $w$ 是一个正常数

4.性能评估

我们将(1.2.20)式对 $k = 0,1,\cdots,N$ 进行累加，可以得到

\frac{w}{L} \sum^N_{k=0}||\nabla f(x_k)||^2 \le f(x_0) - f(x_{N+1}) \le f(x_0) - f^* \tag{1.2.21}

其中 $f^*$ 是函数局部最小值由上述式子可以得知左式是有界的，那么

||\nabla f(x_k)|| \rightarrow 0 \; \; \; 当k \rightarrow \infty 时

我们先做出如下定义

g^*_N = \underset{0 \le k \le N}{min} ||\nabla f(x_k)||

其含义就是所有不同k中最小的梯度结合(1.2.21)可以得到

g^*_N \le \frac{1}{\sqrt{N+1}}[\frac{1}{w}L(f(x_0)-f^*)]^{\frac{1}{2}} \tag{1.2.22}

该式子可以描述 $||\nabla f(x_k)||$ 收敛的速率。

5.举个例子

考虑两个变量的函数

f(x) = f(x_1,x_2) = \frac{1}{2} x_1^2 + \frac{1}{4} x_2^4 - \frac{1}{2} x_2^2

求出该函数的梯度为 $\nabla f(x) = (x_1,x_2^3-x_2)^T$ 。
于是可见有三个点满足梯度为0

x_1^* = (0,0),\; x_2^* = (0,-1),\; x_3^* = (0,1)

这三个点可能是函数的局部极小值。接着计算Hessian矩阵

Hessian矩阵

H = \begin{bmatrix} \frac {\partial^2F} {\partial x_1^2} & \frac {\partial^F} {\partial x_1 \partial x_2} & \cdots & \frac {\partial^F} {\partial x_1 \partial x_n} \\ \frac {\partial^2F} {\partial x_2 \partial x_1} & \frac {\partial^F} {\partial x_2^2} & \cdots & \frac {\partial^F} {\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac {\partial^2F} {\partial x_n \partial x_1} & \frac {\partial^F} {\partial x_n \partial x_2} & \cdots & \frac {\partial^F} {\partial x_n^2} \end{bmatrix}

用于判定极值点
当Hessian矩阵正定时，任意向量v有 $v^T H v > 0$ ，为极小值点
当Hessian矩阵负定时，任意向量v有 $v^T H v < 0$ ，为极大值点
当Hessian矩阵同时具有正负特征值时，该点为鞍点。

于是此处的Hessian矩阵为

\nabla^2 f(x) = \begin{bmatrix} 1 & 0 \\ 0 & 3x_2^2 - 1 \end{bmatrix}

于是点 $x_2^*,x_3^*$ 代入矩阵为正定的，是局部最小值，而 $x_1^*$ 则为鞍点。

接下来考虑从(1,0)出发的梯度算法路径，会发现无论怎么走第二个坐标恒为0，最终将会收敛到 $x_1^*$ ，由此可见，缺乏约束的情况下，梯度法只能靠近一个稳定点。

参考资料

[1] Lectures on Convex Optimization(Second Edition)
[2] Hessian矩阵