收敛率——《机器学习理论导引》第七章学习笔记(上)

528 阅读5分钟

《机器学习理论导引》笔记目录

0 感言

  最近一直在跑自己的代码,距离上次三月多努力投稿水博客混毛毯已经过去了快两个月的时间了,最近抽空把机器学习理论再更新一章。

  收敛率在我看来也是很重要的一个概念,它可以帮助我们更好的理解算法的收敛速度,以及算法的收敛速度和算法的性能之间的关系。本章的内容不得不说也算是十足重要了。

7.1 基本概念

  我们可以将优化问题一般性地表示为

minwWf(w)\min_{\boldsymbol{w} \in \mathcal{W}} f(\boldsymbol{w})

  其中 f()f(\cdot) 是优化的目标函数,w\boldsymbol{w} 是优化变量,W\mathcal{W} 是优化变量的可行域。其对应的最优解可以写成

w=argminwWf(w)\boldsymbol{w}^* = \underset{\boldsymbol{w} \in \mathcal{W}}{\arg\min}f(\boldsymbol{w})

  优化算法旨在高效地寻找问题的最优解 w\boldsymbol{w}^* 与其对应的目标函数的最小值 f(w)f(\boldsymbol{w}^*)。事实上,直接的精确求解是困难的,优化算法因此常被设计为迭代算法,通过不断迭代与近似来逼近最优解。因此研究收敛率是很重要的一件事情,

  1. 迭代算法能否收敛到最终期待的精确解
  2. 迭代算法以多快的速度收敛到最终的精确解

  这些都对我们逼近最优解有着重要的影响。记迭代优化算法为 A\mathcal{A},该算法生成一组序列 {w1,w2,wt}\{\boldsymbol{w}_1,\boldsymbol{w}_2,\ldots\boldsymbol{w}_t\ldots\} 来不断逼近目标函数的最优解 w\boldsymbol{w}^*。可以将一般情况下的迭代优化算法表示,其中 M\mathcal{M} 为优化算法的更新策略,O\mathcal{O} 为函数信息源。

wt+1=M(wt,O(f,wt))\boldsymbol{w}_{t+1} = \mathcal{M}(\boldsymbol{w}_t,\mathcal{O}(f,\boldsymbol{w}_t))
  • 根据所使用的函数信息源 O\mathcal{O} 的不同,常用优化算法可以分为零阶算法、一阶算法和二阶算法。
  • 刻画优化算法性能有两种等价的衡量标准 : 收敛率 (convergence rate)迭代复杂度 (iteration complexity)。假设算法迭代了 TT 轮,wT\boldsymbol{w}_T 为最终输出。
    1. 收敛率 (convergence rate) 旨在刻画优化误差 f(wT)f(w)f(\boldsymbol{w}_T) - f(\boldsymbol{w}^*) 与迭代轮数 TT 之间的关系。常见的包括 :
    f(wT)f(w)=O(1T),O(1T),O(1T2),O(1βT)f(\boldsymbol{w}_T) - f(\boldsymbol{w}^*) = O(\frac{1}{\sqrt{T}}),\quad O(\frac{1}{T}),\quad O(\frac{1}{T^2}),\quad O(\frac{1}{\beta^T})
    1. 迭代复杂度 (iteration complexity) 旨在刻画为了达到 ϵ\epsilon-最优解,需要的迭代轮数,如为了达到 f(wT)f(w)ϵf(\boldsymbol{w}_T) - f(\boldsymbol{w}^*) \leqslant \epsilon,迭代轮数 TTϵ\epsilon 之间的关系。上面收敛率对应的迭代复杂度分别为 :
    T=Ω(1ϵ2),Ω(1ϵ),Ω(1ϵ),Ω(log1ϵ)T=\Omega(\frac{1}{\epsilon^2}),\quad \Omega(\frac{1}{\epsilon}),\quad \Omega(\frac{1}{\sqrt{\epsilon}}),\quad \Omega(\log\frac{1}{\epsilon})
  • 当最优解唯一时,也可以采用当前解与最优解之间的距离 dist(wt,w)\text{dist}(\boldsymbol{w}_t,\boldsymbol{w}^*) 来评估算法的性能指标。
  • 常用的优化算法可以分为确定优化 (deterministic optimization)随机优化 (stochastic optimization) 两大类。确定优化利用函数的真实信息来进行迭代更新,而随机优化则会利用一些随机信息来进行迭代更新。

7.2 确定优化

7.2.1 凸函数

  凸函数具有局部最优解就是全局最优解的数学性质,下面给出简要证明。

证明

  假设 xx^* 是局部最优,即 xx^* 周围存在一个邻域满足

S=B(x,δ),xS,f(x)f(x)S=B\left(x^*, \delta\right), \forall x \in S, f(x) \geqslant f\left(x^*\right)

  因此有

y,f(x)f((1t)x+ty),{tδxy}\forall y, f\left(x^*\right) \leqslant f\left((1-t) x^*+t y\right),\left\{t \leqslant \frac{\delta}{\left|x^*-y\right|}\right\}

  由凸函数性质推导 :

y,f(x)f((1t)x+ty)(1t)f(x)+tf(y)f(x)f(y)\begin{gathered} \forall y, f\left(x^*\right) \leq f\left((1-t) x^*+t y\right) \leq(1-t) f\left(x^*\right)+t f(y) \\ \Rightarrow f\left(x^*\right) \leq f(y) \end{gathered}

  所以对于一般的凸优化问题,可以采用梯度下降达到 O(1/T)O(1/\sqrt{T}) 的收敛率,其基本流程如下 :

  在第 tt 轮迭代中,首先计算函数 f()f(\cdot)wt\boldsymbol{w}_t 上的梯度 f(wt)\nabla f(\boldsymbol{w}_t),然后依据梯度下降 wt+1=wtηtf(wt)\boldsymbol{w}_{t+1}'=\boldsymbol{w}_t-\eta_t\nabla f(\boldsymbol{w}_t) 来更新参数,其中 ηt\eta_t 为步长。在原始问题中存在 wW\boldsymbol{w}\in\mathcal{W} 的约束,但是通过梯度下降获得的中间解 wt+1\boldsymbol{w}_{t+1}' 可能不满足约束条件,因此需要对其进行投影 wt+1=ΠW(wt+1)\boldsymbol{w}_{t+1}=\Pi_{\mathcal{W}}\left(\boldsymbol{w}_{t+1}^{\prime}\right) 保证其属于 W\mathcal{W},投影操作对应的定义为 :

ΠW(z)=argminxWxz\Pi_{\mathcal{W}}(\boldsymbol{z})=\underset{\boldsymbol{x} \in \mathcal{W}}{\arg \min }\|\boldsymbol{x}-\boldsymbol{z}\|

  算法希望在集合 W\mathcal{W} 中寻找距离输入最近的点,最后,将算法 TT 轮迭代的平均值作为输出。下面给出其对应的理论保证。


定理 7.1 (梯度下降收敛率) 若目标函数是 ll-Lipschitz 连续函数,且可行域有界,则采用固定步长梯度下降的收敛率为 O(1T)O(\frac{1}{\sqrt{T}})

证明 假设可行域 W\mathcal{W} 的直径为 Γ\Gamma,并且目标函数是 ll-Lipschitz 连续,即对于任意 u,vWu,v\in\mathcal{W}

uvΓ,f(u)l\|\boldsymbol{u}-\boldsymbol{v}\| \leqslant \Gamma,\|\nabla f(\boldsymbol{u})\| \leqslant l

  简化分析,考虑固定 ηt=η\eta_t=\eta,则对于任意的 wW\boldsymbol{w}\in\mathcal{W},有

f(wt)f(w)f(wt),wtw=1ηwtwt+1,wtw=12η(wtw2wt+1w2+wtwt+12)=12η(wtw2wt+1w2)+η2f(wt)212η(wtw2wt+1w2)+η2f(wt)2\begin{aligned} f\left(\boldsymbol{w}_t\right)-f(\boldsymbol{w}) & \leqslant\left\langle\nabla f\left(\boldsymbol{w}_t\right), \boldsymbol{w}_t-\boldsymbol{w}\right\rangle=\frac{1}{\eta}\left\langle\boldsymbol{w}_t-\boldsymbol{w}_{t+1}^{\prime}, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\ & =\frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}^{\prime}-\boldsymbol{w}\right\|^2+\left\|\boldsymbol{w}_t-\boldsymbol{w}_{t+1}^{\prime}\right\|^2\right) \\ & =\frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}^{\prime}-\boldsymbol{w}\right\|^2\right)+\frac{\eta}{2}\left\|\nabla f\left(\boldsymbol{w}_t\right)\right\|^2 \\ & \leqslant \frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}-\boldsymbol{w}\right\|^2\right)+\frac{\eta}{2}\left\|\nabla f\left(\boldsymbol{w}_t\right)\right\|^2 \end{aligned}

  最后一个不等号利用了凸集合投影操作的非扩展性质 :

ΠW(x)ΠW(z)xz,x,z\left\|\Pi_{\mathcal{W}}(\boldsymbol{x})-\Pi_{\mathcal{W}}(\boldsymbol{z})\right\| \leqslant\|\boldsymbol{x}-\boldsymbol{z}\|, \quad \forall \boldsymbol{x}, \boldsymbol{z}

  注意到目标函数满足 ll-Lipschitz 连续性,由上面两式可得

f(wt)f(w)12η(wtw2wt+1w2)+η2l2f\left(\boldsymbol{w}_t\right)-f(\boldsymbol{w}) \leqslant \frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}-\boldsymbol{w}\right\|^2\right)+\frac{\eta}{2} l^2

  对其从 t=1t=1tt 求和有

t=1Tf(wt)Tf(w)12η(w1w2wT+1w2)+ηT2l212ηw1w2+ηT2l212ηΓ2+ηT2l2\begin{aligned} \sum_{t=1}^T f\left(\boldsymbol{w}_t\right)-T f(\boldsymbol{w}) & \leqslant \frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_1-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{T+1}-\boldsymbol{w}\right\|^2\right)+\frac{\eta T}{2} l^2 \\ & \leqslant \frac{1}{2 \eta}\left\|\boldsymbol{w}_1-\boldsymbol{w}\right\|^2+\frac{\eta T}{2} l^2 \leqslant \frac{1}{2 \eta} \Gamma^2+\frac{\eta T}{2} l^2 \end{aligned}

  最后,依据 Jensen 不等式有

f(wT)f(w)=f(1Tt=1Twt)f(w)1Tt=1Tf(wt)f(w)Γ22ηT+ηl22\begin{aligned} f\left(\overline{\boldsymbol{w}}_T\right)-f(\boldsymbol{w}) & =f\left(\frac{1}{T} \sum_{t=1}^T \boldsymbol{w}_t\right)-f(\boldsymbol{w}) \\ & \leqslant \frac{1}{T} \sum_{t=1}^T f\left(\boldsymbol{w}_t\right)-f(\boldsymbol{w}) \leqslant \frac{\Gamma^2}{2 \eta T}+\frac{\eta l^2}{2} \end{aligned}

  因从,

f(wT)minwWf(w)Γ22ηT+ηl22=lΓT=O(1T)f\left(\overline{\boldsymbol{w}}_T\right)-\min _{\boldsymbol{w} \in \mathcal{W}} f(\boldsymbol{w}) \leqslant \frac{\Gamma^2}{2 \eta T}+\frac{\eta l^2}{2}=\frac{l \Gamma}{\sqrt{T}}=O\left(\frac{1}{\sqrt{T}}\right)

  其中步长设置为 η=Γ/(lT)\eta=\Gamma/(l\sqrt{T}),定理得证。


7.2.2 强凸函数

  首先补充一下强凸函数的定义


定义 (强凸函数) 对定义在凸集上的函数 f:RdRf:\mathbb{R}^d\rightarrow\mathbb{R},若 λR+\exist\lambda\in\mathbb{R}_+,使得 x,zΨ\forall x,z\in\Psi 都有

f(θx+(1θ)z)θf(x)+(1θ)f(z)λ2θ(1θ)xz2(0θ1)\begin{gathered} f(\theta x+(1-\theta) z) \leqslant \theta f(x)+(1-\theta) f(z)-\frac{\lambda}{2} \theta(1-\theta)\|x-z\|^2 \\(\forall\quad 0 \leqslant \theta \leqslant 1) \end{gathered}

  则称之为 λ\lambda-强凸函数。


  本节考虑目标函数 f:WRf:\mathcal{W}\mapsto\mathbb{R}λ\lambda-强凸函数,其具备以下定理


定理 7.2 λ\lambda-强凸函数性质 : 假设 ffλ\lambda-强凸函数,w\boldsymbol{w}^* 为其最优解,对于 wW\boldsymbol{w}\in\mathcal{W}

f(w)f(w)λ2ww2f(\boldsymbol{w})-f\left(\boldsymbol{w}^*\right) \geqslant \frac{\lambda}{2}\left\|\boldsymbol{w}-\boldsymbol{w}^*\right\|^2

  此外,若梯度有上界 ll,则

ww2lλf(w)f(w)2l2λ\begin{aligned} \left\|\boldsymbol{w}-\boldsymbol{w}^*\right\| & \leqslant \frac{2 l}{\lambda} \\ f(\boldsymbol{w})-f\left(\boldsymbol{w}^*\right) & \leqslant \frac{2 l^2}{\lambda} \end{aligned}

  为了收敛得更快,考虑强凸且光滑的函数,即要求目标函数在强凸的同时也满足如下的光滑条件 :

f(w)f(w)+f(w),ww+γ2ww2,w,wWf\left(\boldsymbol{w}^{\prime}\right) \leqslant f(\boldsymbol{w})+\left\langle\nabla f(\boldsymbol{w}), \boldsymbol{w}^{\prime}-\boldsymbol{w}\right\rangle+\frac{\gamma}{2}\left\|\boldsymbol{w}^{\prime}-\boldsymbol{w}\right\|^2, \forall \boldsymbol{w}, \boldsymbol{w}^{\prime} \in \mathcal{W}

  这时称 f:WRf:\mathcal{W}\mapsto\mathbb{R}γ\gamma-光滑函数,上式表明,对于光滑函数 f()f(\cdot),可以在任意一个点 w\boldsymbol{w} 处构造一个二次函数作为其上界。而对于光滑且强凸的函数的梯度下降算法的基本流程如下 :

  在该算法中依据迭代公式更新当前 wt+1\boldsymbol{w}_{t+1},可以得知其对应的闭式解为

wt+1=ΠW(wt1γf(wt))\boldsymbol{w}_{t+1}=\Pi_{\mathcal{W}}\left(\boldsymbol{w}_t-\frac{1}{\gamma} \nabla f\left(\boldsymbol{w}_t\right)\right)

  所以其本质仍然是进行梯度下降更新后再投影到可行域


定理 7.3 梯度下降收敛率 若目标函数满足 λ\lambda-强凸和 γ\gamma-光滑,梯度下降取得了线性收敛了 O(1βT)O(\frac{1}{\beta^T}),其中 β>1\beta>1

证明 根据目标函数的性质以及更新公式有

f(wt+1)(利用光滑条件)f(wt)+f(wt),wt+1wt+γ2wt+1wt2(利用光滑且强凸函数的梯度下降算法)=minwW(f(wt)+f(wt),wwt+γ2wwt2)minwW(f(w)λ2wwt2+γ2wwt2)minw=αw+(1α)wtα[0,1](f(w)+γλ2wwt2)=minα[0,1](f(αw+(1α)wt)+γλ2αw+(1α)wtwt2)minα[0,1](αf(w)+(1α)f(wt)+γλ2α2wwt2)=minα[0,1](f(wt)α(f(wt)f(w))+γλ2α2wwt2)(根据定理 7.2 中第一个不等式)minα[0,1](f(wt)α(f(wt)f(w))+γλ22λα2(f(wt)f(w)))=minα[0,1](f(wt)+(γλλα2α)(f(wt)f(w)))\begin{aligned} & f\left(\boldsymbol{w}_{t+1}\right)\quad\text{(利用光滑条件)}\\ & \leqslant f\left(\boldsymbol{w}_t\right)+\left\langle\nabla f\left(\boldsymbol{w}_t\right), \boldsymbol{w}_{t+1}-\boldsymbol{w}_t\right\rangle+\frac{\gamma}{2}\left\|\boldsymbol{w}_{t+1}-\boldsymbol{w}_t\right\|^2 \\ &\quad\text{(利用光滑且强凸函数的梯度下降算法)} \\ & =\min _{\boldsymbol{w} \in \mathcal{W}}\left(f\left(\boldsymbol{w}_t\right)+\left\langle\nabla f\left(\boldsymbol{w}_t\right), \boldsymbol{w}-\boldsymbol{w}_t\right\rangle+\frac{\gamma}{2}\left\|\boldsymbol{w}-\boldsymbol{w}_t\right\|^2\right) \\ & \leqslant \min _{\boldsymbol{w} \in \mathcal{W}}\left(f(\boldsymbol{w})-\frac{\lambda}{2}\left\|\boldsymbol{w}-\boldsymbol{w}_t\right\|^2+\frac{\gamma}{2}\left\|\boldsymbol{w}-\boldsymbol{w}_t\right\|^2\right) \\ & \leqslant \min _{\substack{\boldsymbol{w}=\alpha \boldsymbol{w}^*+(1-\alpha) \boldsymbol{w}_t \\ \alpha \in[0,1]}}\left(f(\boldsymbol{w})+\frac{\gamma-\lambda}{2}\left\|\boldsymbol{w}-\boldsymbol{w}_t\right\|^2\right) \\ & =\min _{\alpha \in[0,1]}\left(f\left(\alpha \boldsymbol{w}^*+(1-\alpha) \boldsymbol{w}_t\right)+\frac{\gamma-\lambda}{2}\left\|\alpha \boldsymbol{w}^*+(1-\alpha) \boldsymbol{w}_t-\boldsymbol{w}_t\right\|^2\right) \\ & \leqslant \min _{\alpha \in[0,1]}\left(\alpha f\left(\boldsymbol{w}^*\right)+(1-\alpha) f\left(\boldsymbol{w}_t\right)+\frac{\gamma-\lambda}{2} \alpha^2\left\|\boldsymbol{w}^*-\boldsymbol{w}_t\right\|^2\right) \\ & =\min _{\alpha \in[0,1]}\left(f\left(\boldsymbol{w}_t\right)-\alpha\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right)+\frac{\gamma-\lambda}{2} \alpha^2\left\|\boldsymbol{w}^*-\boldsymbol{w}_t\right\|^2\right) \\ &\quad\text{(根据定理 7.2 中第一个不等式)} \\ & \leqslant \min _{\alpha \in[0,1]}\left(f\left(\boldsymbol{w}_t\right)-\alpha\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right)+\frac{\gamma-\lambda}{2} \frac{2}{\lambda} \alpha^2\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right)\right) \\ & =\min _{\alpha \in[0,1]}\left(f\left(\boldsymbol{w}_t\right)+\left(\frac{\gamma-\lambda}{\lambda} \alpha^2-\alpha\right)\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right)\right) \\ & \end{aligned}
  • 如果 λ2(γλ)1\frac{\lambda}{2(\gamma-\lambda)} \geqslant 1,令 α=1\alpha=1,则有
    f(wt+1)f(w)γλλ(f(wt)f(w))12(f(wt)f(w))f\left(\boldsymbol{w}_{t+1}\right)-f\left(\boldsymbol{w}^*\right) \leqslant \frac{\gamma-\lambda}{\lambda}\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right) \leqslant \frac{1}{2}\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right)
  • 如果 λ2(γλ)<1\frac{\lambda}{2(\gamma-\lambda)} < 1,令 α=λ2(γλ)\alpha=\frac{\lambda}{2(\gamma-\lambda)},则有
    f(wt+1)f(w)(1λ4(γλ))(f(wt)f(w))=4γ5λ4(γλ)(f(wt)f(w))\begin{aligned} f\left(\boldsymbol{w}_{t+1}\right)-f\left(\boldsymbol{w}^*\right) & \leqslant\left(1-\frac{\lambda}{4(\gamma-\lambda)}\right)\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right) \\ & =\frac{4 \gamma-5 \lambda}{4(\gamma-\lambda)}\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right) \end{aligned}

  结合上面两种情况进行如下赋值

β={λγλ,λ2(γλ)14(γλ)4γ5λ,λ2(γλ)<1\beta= \begin{cases}\frac{\lambda}{\gamma-\lambda}, & \frac{\lambda}{2(\gamma-\lambda)} \geqslant 1 \\ \frac{4(\gamma-\lambda)}{4 \gamma-5 \lambda}, & \frac{\lambda}{2(\gamma-\lambda)}<1\end{cases}

  则可以保证 f(wt+1)f(w)1β(f(wt)f(w))f\left(\boldsymbol{w}_{t+1}\right)-f\left(\boldsymbol{w}^*\right) \leqslant \frac{1}{\beta}\left(f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right)\right) 总是成立,进而可扩展为

f(wT)f(w)1βT1(f(w1)f(w))=O(1βT)f\left(\boldsymbol{w}_T\right)-f\left(\boldsymbol{w}^*\right) \leqslant \frac{1}{\beta^{T-1}}\left(f\left(\boldsymbol{w}_1\right)-f\left(\boldsymbol{w}^*\right)\right)=O\left(\frac{1}{\beta^T}\right)