《机器学习理论导引》笔记目录

第一章 : 预备知识
- 第一章 : 预备知识(上)
- 第一章 : 预备知识(下)
第二章 : 可学性
第三章 : 复杂度
第四章 : 泛化界
第五章 : 稳定性
第六章 : 一致性
- 第六章 : 一致性(上)
- 第六章 : 一致性(下)
第七章 : 收敛率
- 第七章 : 收敛率(上)
- 第七章 : 收敛率(下)
第八章 : 遗憾界
- 第八章 : 遗憾界(上)
- 第八章 : 遗憾界(下)

0 感言

最近一直在跑自己的代码，距离上次三月多努力投稿~~水博客混毛毯~~已经过去了快两个月的时间了，最近抽空把机器学习理论再更新一章。

收敛率在我看来也是很重要的一个概念，它可以帮助我们更好的理解算法的收敛速度，以及算法的收敛速度和算法的性能之间的关系。本章的内容不得不说也算是十足重要了。

7.1 基本概念

我们可以将优化问题一般性地表示为

\min_{\boldsymbol{w} \in \mathcal{W}} f(\boldsymbol{w})

其中 $f(\cdot)$ 是优化的目标函数， $\boldsymbol{w}$ 是优化变量， $\mathcal{W}$ 是优化变量的可行域。其对应的最优解可以写成

\boldsymbol{w}^* = \underset{\boldsymbol{w} \in \mathcal{W}}{\arg\min}f(\boldsymbol{w})

优化算法旨在高效地寻找问题的最优解 $\boldsymbol{w}^*$ 与其对应的目标函数的最小值 $f(\boldsymbol{w}^*)$ 。事实上，直接的精确求解是困难的，优化算法因此常被设计为迭代算法，通过不断迭代与近似来逼近最优解。因此研究收敛率是很重要的一件事情，

迭代算法能否收敛到最终期待的精确解
迭代算法以多快的速度收敛到最终的精确解

这些都对我们逼近最优解有着重要的影响。记迭代优化算法为 $\mathcal{A}$ ，该算法生成一组序列 $\{\boldsymbol{w}_1,\boldsymbol{w}_2,\ldots\boldsymbol{w}_t\ldots\}$ 来不断逼近目标函数的最优解 $\boldsymbol{w}^*$ 。可以将一般情况下的迭代优化算法表示，其中 $\mathcal{M}$ 为优化算法的更新策略， $\mathcal{O}$ 为函数信息源。

\boldsymbol{w}_{t+1} = \mathcal{M}(\boldsymbol{w}_t,\mathcal{O}(f,\boldsymbol{w}_t))

根据所使用的函数信息源 $\mathcal{O}$ 的不同，常用优化算法可以分为零阶算法、一阶算法和二阶算法。
刻画优化算法性能有两种等价的衡量标准 : 收敛率 (convergence rate) 和迭代复杂度 (iteration complexity)。假设算法迭代了 $T$ 轮， $\boldsymbol{w}_T$ 为最终输出。
1. 收敛率 (convergence rate) 旨在刻画优化误差 $f(\boldsymbol{w}_T) - f(\boldsymbol{w}^*)$ 与迭代轮数 $T$ 之间的关系。常见的包括 :
$f(\boldsymbol{w}_T) - f(\boldsymbol{w}^*) = O(\frac{1}{\sqrt{T}}),\quad O(\frac{1}{T}),\quad O(\frac{1}{T^2}),\quad O(\frac{1}{\beta^T})$
1. 迭代复杂度 (iteration complexity) 旨在刻画为了达到 $\epsilon$ -最优解，需要的迭代轮数，如为了达到 $f(\boldsymbol{w}_T) - f(\boldsymbol{w}^*) \leqslant \epsilon$ ，迭代轮数 $T$ 和 $\epsilon$ 之间的关系。上面收敛率对应的迭代复杂度分别为 :
$T=\Omega(\frac{1}{\epsilon^2}),\quad \Omega(\frac{1}{\epsilon}),\quad \Omega(\frac{1}{\sqrt{\epsilon}}),\quad \Omega(\log\frac{1}{\epsilon})$
当最优解唯一时，也可以采用当前解与最优解之间的距离 $\text{dist}(\boldsymbol{w}_t,\boldsymbol{w}^*)$ 来评估算法的性能指标。
常用的优化算法可以分为确定优化 (deterministic optimization) 和随机优化 (stochastic optimization) 两大类。确定优化利用函数的真实信息来进行迭代更新，而随机优化则会利用一些随机信息来进行迭代更新。

7.2 确定优化

7.2.1 凸函数

凸函数具有局部最优解就是全局最优解的数学性质，下面给出简要证明。

证明

假设 $x^*$ 是局部最优，即 $x^*$ 周围存在一个邻域满足

S=B\left(x^*, \delta\right), \forall x \in S, f(x) \geqslant f\left(x^*\right)

因此有

\forall y, f\left(x^*\right) \leqslant f\left((1-t) x^*+t y\right),\left\{t \leqslant \frac{\delta}{\left|x^*-y\right|}\right\}

由凸函数性质推导 :

\begin{gathered} \forall y, f\left(x^*\right) \leq f\left((1-t) x^*+t y\right) \leq(1-t) f\left(x^*\right)+t f(y) \\ \Rightarrow f\left(x^*\right) \leq f(y) \end{gathered}

所以对于一般的凸优化问题，可以采用梯度下降达到 $O(1/\sqrt{T})$ 的收敛率，其基本流程如下 :

在第 $t$ 轮迭代中，首先计算函数 $f(\cdot)$ 在 $\boldsymbol{w}_t$ 上的梯度 $\nabla f(\boldsymbol{w}_t)$ ，然后依据梯度下降 $\boldsymbol{w}_{t+1}'=\boldsymbol{w}_t-\eta_t\nabla f(\boldsymbol{w}_t)$ 来更新参数，其中 $\eta_t$ 为步长。在原始问题中存在 $\boldsymbol{w}\in\mathcal{W}$ 的约束，但是通过梯度下降获得的中间解 $\boldsymbol{w}_{t+1}'$ 可能不满足约束条件，因此需要对其进行投影 $\boldsymbol{w}_{t+1}=\Pi_{\mathcal{W}}\left(\boldsymbol{w}_{t+1}^{\prime}\right)$ 保证其属于 $\mathcal{W}$ ，投影操作对应的定义为 :

\Pi_{\mathcal{W}}(\boldsymbol{z})=\underset{\boldsymbol{x} \in \mathcal{W}}{\arg \min }\|\boldsymbol{x}-\boldsymbol{z}\|

算法希望在集合 $\mathcal{W}$ 中寻找距离输入最近的点，最后，将算法 $T$ 轮迭代的平均值作为输出。下面给出其对应的理论保证。

定理 7.1 (梯度下降收敛率) 若目标函数是 $l$ -Lipschitz 连续函数，且可行域有界，则采用固定步长梯度下降的收敛率为 $O(\frac{1}{\sqrt{T}})$

证明假设可行域 $\mathcal{W}$ 的直径为 $\Gamma$ ，并且目标函数是 $l$ -Lipschitz 连续，即对于任意 $u,v\in\mathcal{W}$

\|\boldsymbol{u}-\boldsymbol{v}\| \leqslant \Gamma,\|\nabla f(\boldsymbol{u})\| \leqslant l

简化分析，考虑固定 $\eta_t=\eta$ ，则对于任意的 $\boldsymbol{w}\in\mathcal{W}$ ，有

\begin{aligned} f\left(\boldsymbol{w}_t\right)-f(\boldsymbol{w}) & \leqslant\left\langle\nabla f\left(\boldsymbol{w}_t\right), \boldsymbol{w}_t-\boldsymbol{w}\right\rangle=\frac{1}{\eta}\left\langle\boldsymbol{w}_t-\boldsymbol{w}_{t+1}^{\prime}, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\ & =\frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}^{\prime}-\boldsymbol{w}\right\|^2+\left\|\boldsymbol{w}_t-\boldsymbol{w}_{t+1}^{\prime}\right\|^2\right) \\ & =\frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}^{\prime}-\boldsymbol{w}\right\|^2\right)+\frac{\eta}{2}\left\|\nabla f\left(\boldsymbol{w}_t\right)\right\|^2 \\ & \leqslant \frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}-\boldsymbol{w}\right\|^2\right)+\frac{\eta}{2}\left\|\nabla f\left(\boldsymbol{w}_t\right)\right\|^2 \end{aligned}

最后一个不等号利用了凸集合投影操作的非扩展性质 :

\left\|\Pi_{\mathcal{W}}(\boldsymbol{x})-\Pi_{\mathcal{W}}(\boldsymbol{z})\right\| \leqslant\|\boldsymbol{x}-\boldsymbol{z}\|, \quad \forall \boldsymbol{x}, \boldsymbol{z}

注意到目标函数满足 $l$ -Lipschitz 连续性，由上面两式可得

f\left(\boldsymbol{w}_t\right)-f(\boldsymbol{w}) \leqslant \frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}-\boldsymbol{w}\right\|^2\right)+\frac{\eta}{2} l^2

对其从 $t=1$ 到 $t$ 求和有

\begin{aligned} \sum_{t=1}^T f\left(\boldsymbol{w}_t\right)-T f(\boldsymbol{w}) & \leqslant \frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_1-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{T+1}-\boldsymbol{w}\right\|^2\right)+\frac{\eta T}{2} l^2 \\ & \leqslant \frac{1}{2 \eta}\left\|\boldsymbol{w}_1-\boldsymbol{w}\right\|^2+\frac{\eta T}{2} l^2 \leqslant \frac{1}{2 \eta} \Gamma^2+\frac{\eta T}{2} l^2 \end{aligned}

最后，依据 Jensen 不等式有

\begin{aligned} f\left(\overline{\boldsymbol{w}}_T\right)-f(\boldsymbol{w}) & =f\left(\frac{1}{T} \sum_{t=1}^T \boldsymbol{w}_t\right)-f(\boldsymbol{w}) \\ & \leqslant \frac{1}{T} \sum_{t=1}^T f\left(\boldsymbol{w}_t\right)-f(\boldsymbol{w}) \leqslant \frac{\Gamma^2}{2 \eta T}+\frac{\eta l^2}{2} \end{aligned}

因从，

f\left(\overline{\boldsymbol{w}}_T\right)-\min _{\boldsymbol{w} \in \mathcal{W}} f(\boldsymbol{w}) \leqslant \frac{\Gamma^2}{2 \eta T}+\frac{\eta l^2}{2}=\frac{l \Gamma}{\sqrt{T}}=O\left(\frac{1}{\sqrt{T}}\right)

其中步长设置为 $\eta=\Gamma/(l\sqrt{T})$ ，定理得证。

7.2.2 强凸函数

首先补充一下强凸函数的定义

定义 (强凸函数) 对定义在凸集上的函数 $f:\mathbb{R}^d\rightarrow\mathbb{R}$ ，若 $\exist\lambda\in\mathbb{R}_+$ ，使得 $\forall x,z\in\Psi$ 都有

\begin{gathered} f(\theta x+(1-\theta) z) \leqslant \theta f(x)+(1-\theta) f(z)-\frac{\lambda}{2} \theta(1-\theta)\|x-z\|^2 \\(\forall\quad 0 \leqslant \theta \leqslant 1) \end{gathered}

则称之为 $\lambda$ -强凸函数。

本节考虑目标函数 $f:\mathcal{W}\mapsto\mathbb{R}$ 是 $\lambda$ -强凸函数，其具备以下定理

定理 7.2 $\lambda$ -强凸函数性质 : 假设 $f$ 是 $\lambda$ -强凸函数， $\boldsymbol{w}^*$ 为其最优解，对于 $\boldsymbol{w}\in\mathcal{W}$ 有

f(\boldsymbol{w})-f\left(\boldsymbol{w}^*\right) \geqslant \frac{\lambda}{2}\left\|\boldsymbol{w}-\boldsymbol{w}^*\right\|^2

此外，若梯度有上界 $l$ ，则

\begin{aligned} \left\|\boldsymbol{w}-\boldsymbol{w}^*\right\| & \leqslant \frac{2 l}{\lambda} \\ f(\boldsymbol{w})-f\left(\boldsymbol{w}^*\right) & \leqslant \frac{2 l^2}{\lambda} \end{aligned}

为了收敛得更快，考虑强凸且光滑的函数，即要求目标函数在强凸的同时也满足如下的光滑条件 :

f\left(\boldsymbol{w}^{\prime}\right) \leqslant f(\boldsymbol{w})+\left\langle\nabla f(\boldsymbol{w}), \boldsymbol{w}^{\prime}-\boldsymbol{w}\right\rangle+\frac{\gamma}{2}\left\|\boldsymbol{w}^{\prime}-\boldsymbol{w}\right\|^2, \forall \boldsymbol{w}, \boldsymbol{w}^{\prime} \in \mathcal{W}

这时称 $f:\mathcal{W}\mapsto\mathbb{R}$ 为 $\gamma$ -光滑函数，上式表明，对于光滑函数 $f(\cdot)$ ，可以在任意一个点 $\boldsymbol{w}$ 处构造一个二次函数作为其上界。而对于光滑且强凸的函数的梯度下降算法的基本流程如下 :

在该算法中依据迭代公式更新当前 $\boldsymbol{w}_{t+1}$ ，可以得知其对应的闭式解为

\boldsymbol{w}_{t+1}=\Pi_{\mathcal{W}}\left(\boldsymbol{w}_t-\frac{1}{\gamma} \nabla f\left(\boldsymbol{w}_t\right)\right)

所以其本质仍然是进行梯度下降更新后再投影到可行域

定理 7.3 梯度下降收敛率 若目标函数满足 $\lambda$ -强凸和 $\gamma$ -光滑，梯度下降取得了线性收敛了 $O(\frac{1}{\beta^T})$ ，其中 $\beta>1$

证明根据目标函数的性质以及更新公式有

\begin{aligned} & f\left(\boldsymbol{w}_{t+1}\right)\quad\text{(利用光滑条件)}\\ & \leqslant f\left(\boldsymbol{w}_t\right)+\left\langle\nabla f\left(\boldsymbol{w}_t\right), \boldsymbol{w}_{t+1}-\boldsymbol{w}_t\right\rangle+\frac{\gamma}{2}\left\|\boldsymbol{w}_{t+1}-\boldsymbol{w}_t\right\|^2 \\ &\quad\text{(利用光滑且强凸函数的梯度下降算法)} \\ & =\min _{\boldsymbol{w} \in \mathcal{W}}\left(f\left(\boldsymbol{w}_t\right)+\left\langle\nabla f\left(\boldsymbol{w}_t\right), \boldsymbol{w}-\boldsymbol{w}_t\right\rangle+\frac{\gamma}{2}\left\|\boldsymbol{w}-\boldsymbol{w}_t\right\|^2\right) \\ & \leqslant \min _{\boldsymbol{w} \in \mathcal{W}}\left(f(\boldsymbol{w})-\frac{\lambda}{2}\left\|\boldsymbol{w}-\boldsymbol{w}_t\right\|^2+\frac{\gamma}{2}\left\|\boldsymbol{w}-\boldsymbol{w}_t\right\|^2\right) \\ & \leqslant \min _{\substack{\boldsymbol{w}=\alpha \boldsymbol{w}^*+(1-\alpha) \boldsymbol{w}_t \\ \alpha \in[0,1]}}\left(f(\boldsymbol{w})+\frac{\gamma-\lambda}{2}\left\|\boldsymbol{w}-\boldsymbol{w}_t\right\|^2\right) \\ & =\min _{\alpha \in[0,1]}\left(f\left(\alpha \boldsymbol{w}^*+(1-\alpha) \boldsymbol{w}_t\right)+\frac{\gamma-\lambda}{2}\left\|\alpha \boldsymbol{w}^*+(1-\alpha) \boldsymbol{w}_t-\boldsymbol{w}_t\right\|^2\right) \\ & \leqslant \min _{\alpha \in[0,1]}\left(\alpha f\left(\boldsymbol{w}^*\right)+(1-\alpha) f\left(\boldsymbol{w}_t\right)+\frac{\gamma-\lambda}{2} \alpha^2\left\|\boldsymbol{w}^*-\boldsymbol{w}_t\right\|^2\right) \\ & =\min _{\alpha \in[0,1]}\left(f\left(\boldsymbol{w}_t\right)-\alpha\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right)+\frac{\gamma-\lambda}{2} \alpha^2\left\|\boldsymbol{w}^*-\boldsymbol{w}_t\right\|^2\right) \\ &\quad\text{(根据定理 7.2 中第一个不等式)} \\ & \leqslant \min _{\alpha \in[0,1]}\left(f\left(\boldsymbol{w}_t\right)-\alpha\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right)+\frac{\gamma-\lambda}{2} \frac{2}{\lambda} \alpha^2\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right)\right) \\ & =\min _{\alpha \in[0,1]}\left(f\left(\boldsymbol{w}_t\right)+\left(\frac{\gamma-\lambda}{\lambda} \alpha^2-\alpha\right)\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right)\right) \\ & \end{aligned}

如果 $\frac{\lambda}{2(\gamma-\lambda)} \geqslant 1$ ，令 $\alpha=1$ ，则有 $f\left(\boldsymbol{w}_{t+1}\right)-f\left(\boldsymbol{w}^*\right) \leqslant \frac{\gamma-\lambda}{\lambda}\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right) \leqslant \frac{1}{2}\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right)$
如果 $\frac{\lambda}{2(\gamma-\lambda)} < 1$ ，令 $\alpha=\frac{\lambda}{2(\gamma-\lambda)}$ ，则有 $\begin{aligned} f\left(\boldsymbol{w}_{t+1}\right)-f\left(\boldsymbol{w}^*\right) & \leqslant\left(1-\frac{\lambda}{4(\gamma-\lambda)}\right)\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right) \\ & =\frac{4 \gamma-5 \lambda}{4(\gamma-\lambda)}\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right) \end{aligned}$

结合上面两种情况进行如下赋值

\beta= \begin{cases}\frac{\lambda}{\gamma-\lambda}, & \frac{\lambda}{2(\gamma-\lambda)} \geqslant 1 \\ \frac{4(\gamma-\lambda)}{4 \gamma-5 \lambda}, & \frac{\lambda}{2(\gamma-\lambda)}<1\end{cases}

则可以保证 $f\left(\boldsymbol{w}_{t+1}\right)-f\left(\boldsymbol{w}^*\right) \leqslant \frac{1}{\beta}\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right)$ 总是成立，进而可扩展为

f\left(\boldsymbol{w}_T\right)-f\left(\boldsymbol{w}^*\right) \leqslant \frac{1}{\beta^{T-1}}\left(f\left(\boldsymbol{w}_1\right)-f\left(\boldsymbol{w}^*\right)\right)=O\left(\frac{1}{\beta^T}\right)

收敛率——《机器学习理论导引》第七章学习笔记(上)