收敛率——《机器学习理论导引》第七章学习笔记(下)

1,033 阅读11分钟

《机器学习理论导引》笔记目录

0 感言

  感觉这章整体而言自己理解得并不充分,更多像是把周老师的教材进行打印,之后有时间我会重新进行整理的。

7.3 随机优化

7.3.1 凸函数

  下给出随机优化的代表性算法——随机梯度下降法 (Stochastic Gradient Descent,SGD) 的流程。

  其中要求 wt\boldsymbol{w}_t 的随机梯度 gt\boldsymbol{g}_t 是真实梯度 f(wt)\nabla f(\boldsymbol{w}_t) 的无偏估计,即 :

E[gt]=f(wt)\mathbb{E}[\boldsymbol{g}_t] = \nabla f(\boldsymbol{w}_t)

  上述方法非常适合机器学习问题。下面以监督学习为例,监督学习的最终目标是最小化泛化风险,令数据分布为 D\mathcal{D},可以用风险最小化 (Risk Minimization) 的方法来描述监督学习的目标 :

minwWf(w)=EzD[(w,z)]\min _{\boldsymbol{w} \in \mathcal{W}} f(\boldsymbol{w})=\mathbb{E}_{\boldsymbol{z} \sim \mathcal{D}}[\ell(\boldsymbol{w}, \boldsymbol{z})]

  其中 zD\boldsymbol{z} \in \mathcal{D} 表示 z\boldsymbol{z} 是从数据分布 D\mathcal{D} 中采样获得,(,)\ell(\cdot,\cdot) 为损失函数,但是在现实场景中很难直接获得真实的数据分布 D\mathcal{D},因此经常采用经验风险最小化 (Empirical Risk Minimization,ERM) 的方法来近似风险最小化的目标 : 从数据分布 D\mathcal{D} 中采样获得 mm 个样本 z1,z2,,zm,zi=(xi,yi)\boldsymbol{z}_1,\boldsymbol{z}_2,\cdots,\boldsymbol{z}_m,\forall \boldsymbol{z}_i=(\boldsymbol{x}_i,y_i)xi\boldsymbol{x}_i 为样本特征,yiy_i 为样本标记,然后用这 nn 个样本来近似风险最小化的目标 :

minwWf(w)=1mi=1m(w,zi)\min_{\boldsymbol{w} \in \mathcal{W}} f(\boldsymbol{w})=\frac{1}{m} \sum_{i=1}^{m} \ell(\boldsymbol{w}, \boldsymbol{z}_i)

  当 mm 很大的时候计算代价很高,因此采用随机梯度下降法 (Stochastic Gradient Descent,SGD) 来近似风险最小化的目标,将上述算法中第 3 步改为下式即可 :

wt+1=wtηt(wt,zt)\boldsymbol{w}_{t+1}'=\boldsymbol{w}_{t}-\eta_{t}\nabla \ell\left(\boldsymbol{w}_{t}, \boldsymbol{z}_{t}\right)

  其中 zt\boldsymbol{z}_t 表示从数据分布 D\mathcal{D} 中随机采样获得的样本,从上面的描述可以看出随机梯度下降每轮迭代只需要利用 1 个样本。而对于一般的 Lipschitz 连续凸函数,随机梯度下降法的收敛速度为 O(1T)O(\frac{1}{\sqrt{T}}),具体有如下定理 :


定理 7.4 随机梯度下降收敛率 假设目标函数的随机梯度有上界,且可行域有界,则随机梯度下降的收敛率为 O(1T)O(\frac{1}{\sqrt{T}})

证明 假设随机梯度上界为 ll,可行域 W\mathcal{W} 直径为 Γ\Gamma,即对于任意 t[T],u,vWt\in[T],u,v\in\mathcal{W}

gtluvΓ\begin{array}{r} \left\|\mathbf{g}_t\right\| \leqslant l \\ \|\boldsymbol{u}-\boldsymbol{v}\| \leqslant \Gamma \end{array}

  同样为了简化分析,考虑固定的步长 ηt=η\eta_t=\eta,则对于任意的 wWw\in\mathcal{W}

f(wt)f(w)f(wt),wtw=gt,wtw+f(wt)gt,wtw=1ηwtwt+1,wtw+f(wt)gt,wtw=12η(wtw2wt+1w2+wtwt+12)+f(wt)gt,wtw=12η(wtw2wt+1w2)+η2gt2+f(wt)gt,wtw(利用ΠW(x)ΠW(z)xz,x,z)12η(wtw2wt+1w2)+η2gt2+f(wt)gt,wtw12η(wtw2wt+1w2)+η2l2+f(wt)gt,wtw\begin{aligned} & f\left(\boldsymbol{w}_t\right)-f(\boldsymbol{w}) \\ & \leqslant\left\langle\nabla f\left(\boldsymbol{w}_t\right), \boldsymbol{w}_t-\boldsymbol{w}\right\rangle=\left\langle\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle+\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\ & =\frac{1}{\eta}\left\langle\boldsymbol{w}_t-\boldsymbol{w}_{t+1}^{\prime}, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle+\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\ & =\frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}^{\prime}-\boldsymbol{w}\right\|^2+\left\|\boldsymbol{w}_t-\boldsymbol{w}_{t+1}^{\prime}\right\|^2\right)+\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\ & =\frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}^{\prime}-\boldsymbol{w}\right\|^2\right)+\frac{\eta}{2}\left\|\mathbf{g}_t\right\|^2+\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\ &\quad\text{(利用}\left\|\Pi_{\mathcal{W}}(\boldsymbol{x})-\Pi_{\mathcal{W}}(\boldsymbol{z})\right\| \leqslant\|\boldsymbol{x}-\boldsymbol{z}\|, \quad \forall \boldsymbol{x}, \boldsymbol{z}) \\ & \leqslant \frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}-\boldsymbol{w}\right\|^2\right)+\frac{\eta}{2}\left\|\mathbf{g}_t\right\|^2+\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\ & \leqslant \frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}-\boldsymbol{w}\right\|^2\right)+\frac{\eta}{2} l^2+\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \end{aligned}

  对上面的不等式从 t=1t=1t=Tt=T 求和,得到

t=1Tf(wt)Tf(w)12η(w1w2wT+1w2)+ηT2l2+t=1Tf(wt)gt,wtw12ηw1w2+ηT2l2+t=1Tf(wt)gt,wtw12ηΓ2+ηT2l2+t=1Tf(wt)gt,wtw\begin{aligned} & \sum_{t=1}^T f\left(\boldsymbol{w}_t\right)-T f(\boldsymbol{w}) \\ & \quad \leqslant \frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_1-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{T+1}-\boldsymbol{w}\right\|^2\right)+\frac{\eta T}{2} l^2+\sum_{t=1}^T\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\ & \quad \leqslant \frac{1}{2 \eta}\left\|\boldsymbol{w}_1-\boldsymbol{w}\right\|^2+\frac{\eta T}{2} l^2+\sum_{t=1}^T\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\ & \quad \leqslant \frac{1}{2 \eta} \Gamma^2+\frac{\eta T}{2} l^2+\sum_{t=1}^T\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \end{aligned}

  最后,依据 Jensen 不等式,有

f(wT)f(w)=f(1Tt=1Twt)f(w)1Tt=1Tf(wt)f(w)Γ22ηT+ηl22+1Tt=1Tf(wt)gt,wtw\begin{aligned} f\left(\overline{\boldsymbol{w}}_T\right)-f(\boldsymbol{w}) & =f\left(\frac{1}{T} \sum_{t=1}^T \boldsymbol{w}_t\right)-f(\boldsymbol{w}) \\ & \leqslant \frac{1}{T} \sum_{t=1}^T f\left(\boldsymbol{w}_t\right)-f(\boldsymbol{w}) \\ & \leqslant \frac{\Gamma^2}{2 \eta T}+\frac{\eta l^2}{2}+\frac{1}{T} \sum_{t=1}^T\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \end{aligned}

  可以看出,上式与章节 7.2.1 中梯度下降分析的结果的区别在于多了一项 1Tt=1Tf(wt)gt,wtw\frac{1}{T} \sum_{t=1}^T\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle

  下面证明随机梯度下降算法期望意义上的收敛率,利用 wt\boldsymbol{w}_t 的随机梯度 gt\boldsymbol{g}_t 是真实梯度 f(wt)\nabla f(\boldsymbol{w}_t) 的无偏估计,有

E[t=1Tf(wt)gt,wtw]=E[t=1Tf(wt),wtw]E[t=1Tgt,wtw]=t=1T[E[f(wt),wtw]E[gt,wtw]]=t=1T[E[E[gt],wtw]E[gt,wtw]]=t=1T[E[gt,wtw]E[gt,wtw]]=0\begin{aligned} &\mathbb{E}\left[\sum_{t=1}^T\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\rangle\right] \\ =&\mathbb{E}\left[\sum_{t=1}^T\langle\nabla f\left(\boldsymbol{w}_t\right), \boldsymbol{w}_t-\boldsymbol{w}\rangle\right]-\mathbb{E}\left[\sum_{t=1}^T\langle\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\rangle\right] \\ =&\sum_{t=1}^T\left[\mathbb{E}\left[\langle\nabla f\left(\boldsymbol{w}_t\right), \boldsymbol{w}_t-\boldsymbol{w}\rangle\right]-\mathbb{E}\left[\langle\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\rangle\right]\right] \\ =&\sum_{t=1}^T\left[\mathbb{E}\left[\langle\mathbb{E}\left[\mathbf{g}_t\right], \boldsymbol{w}_t-\boldsymbol{w}\rangle\right]-\mathbb{E}\left[\langle\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\rangle\right]\right] \\ =&\sum_{t=1}^T\left[\mathbb{E}\left[\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\rangle\right]-\mathbb{E}\left[\langle\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\rangle\right]\right] \\ =&0 \end{aligned}

  对于上面的不等式求期望有

E[f(wT)]f(w)Γ22ηT+ηl22=lΓT\mathbb{E}\left[f\left(\overline{\boldsymbol{w}}_T\right)\right]-f(\boldsymbol{w}) \leqslant \frac{\Gamma^2}{2 \eta T}+\frac{\eta l^2}{2}=\frac{l \Gamma}{\sqrt{T}}

  其中令 η=Γ/(lT)\eta=\Gamma/(l\sqrt{T})

  前面的分析证明了从期望意义上的收敛率,为了分析随机梯度下降算法的理论保障,将利用针对鞅差序列的 Azuma 不等式,利用 wt\boldsymbol{w}_t 的随机梯度 gt\boldsymbol{g}_t 是真实梯度 f(wt)\nabla f(\boldsymbol{w}_t) 的无偏估计,可知 f(w1)g1,w1w,\langle\nabla f(\boldsymbol{w}_1)-g_1,\boldsymbol{w}_1-\boldsymbol{w}\rangle,\ldots 组成一个鞅差序列,有

f(wt)gt,wtwf(wt)gtwtwΓ(f(wt)+gt)2lΓ\begin{aligned} \left|\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle\right| & \leqslant\left\|\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t\right\|\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\| \\ & \leqslant \Gamma\left(\left\|\nabla f\left(\boldsymbol{w}_t\right)\right\|+\left\|\boldsymbol{g}_t\right\|\right) \leqslant 2 l \Gamma \end{aligned}

  上式的推导过程中利用了 Jensen 不等式获得 f(wt)\lVert\nabla f(\boldsymbol{w}_t)\rVert 的上界

f(wt)=E[gt]E[gt]l\left\|\nabla f\left(\boldsymbol{w}_t\right)\right\|=\left\|\mathbb{E}\left[\mathbf{g}_t\right]\right\| \leqslant \mathbb{E}\left[\left\|\mathbf{g}_t\right\|\right] \leqslant l

  根据 Azuma 不等式推论 P(i=1mXiϵ)eϵ2/2i=1mci2P\left(\sum_{i=1}^m X_i \geqslant \epsilon\right) \leqslant e^{-\epsilon^2 / 2 \sum_{i=1}^m c_i^2},以至少 1δ1-\delta 的概率有

t=1Tf(wt)gt,wtw2lΓ2Tlog1δ\sum_{t=1}^T\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \leqslant 2 l \Gamma \sqrt{2 T \log \frac{1}{\delta}}

  将上式代入前面的不等式,以至少 1δ1-\delta 的概率有

f(wT)f(w)Γ22ηT+ηl22+2lΓ2Tlog1δ=lΓT(1+22log1δ)=O(1T)\begin{aligned} f\left(\overline{\boldsymbol{w}}_T\right)-f(\boldsymbol{w}) & \leqslant \frac{\Gamma^2}{2 \eta T}+\frac{\eta l^2}{2}+2 l \Gamma \sqrt{\frac{2}{T} \log \frac{1}{\delta}}\\&=\frac{l \Gamma}{\sqrt{T}}\left(1+2 \sqrt{2 \log \frac{1}{\delta}}\right) =O\left(\frac{1}{\sqrt{T}}\right) \end{aligned}

7.3.2 强凸函数

  为了处理强凸函数,引入阶段随机梯度下降 (Epoch-GD) 算法,其流程如下 :

  若目标函数 f:WRf:\mathcal{W}\mapsto\mathbb{R}λ\lambda-强凸的,在期望意义上的 Epoch-GD 的额外风险界为 O(1/[λT])O(1/[\lambda T]),下进行相关证明


引理 7.1 将 Epoch-GD 的参数设置为 T1=4T_1=4η1=1/λ\eta_1=1/\lambdall 为随机梯度的上界,令 Δk=f(w1k)f(w),Vk=l2/(λ2k2)\Delta_k=f(\boldsymbol{w}_1^k)-f(\boldsymbol{w}^*),V_k=l^2/(\lambda2^{k-2}),对于任意的 kk

E[Δk]Vk\mathbb{E}\left[\Delta_k\right] \leqslant V_k

证明 当随机梯度的上界为 ll 时,根据先前推论 f(wt)=E[gt]E[gt]l\left\|\nabla f\left(\boldsymbol{w}_t\right)\right\|=\left\|\mathbb{E}\left[\mathbf{g}_t\right]\right\| \leqslant \mathbb{E}\left[\left\|\mathbf{g}_t\right\|\right] \leqslant l 可知,真实梯度的上界也为 ll。因此,定理 7.2 成立。然后易知下面式子成立 :

Tk=8l2λVk=2k+1ηk=Vk2l2=1λ2k1\begin{aligned} T_k & =\frac{8 l^2}{\lambda V_k}=2^{k+1} \\ \eta_k & =\frac{V_k}{2 l^2}=\frac{1}{\lambda 2^{k-1}} \end{aligned}

  下使用数学归纳法来进行证明

  • k=1k=1 时,引理成立 :

    E[Δ1]=E[f(w11)f(w)]2l2λ=l2λ212=V1 \mathbb{E}\left[\Delta_1\right]=\mathbb{E}\left[f\left(\boldsymbol{w}_1^1\right)-f\left(\boldsymbol{w}^*\right)\right] \leqslant \frac{2 l^2}{\lambda}=\frac{l^2}{\lambda 2^{1-2}}=V_1
  • 假设对于某正整数 k1k\geqslant1,引理仍成立 E[Δk]Vk=l2/(λ2k2)\mathbb{E}\left[\Delta_k\right] \leqslant V_k=l^2/(\lambda2^{k-2})

  • 对于正整数 k+1k+1,令 Ek[X]\mathbb{E}_k[X] 为前 kk 轮的期望,则有

    Ek[f(w1k+1)]f(w)ηkl22+ww1k22ηkTkηkl22+ΔkηkTkλ. \begin{aligned} \mathbb{E}_k\left[f\left(\boldsymbol{w}_1^{k+1}\right)\right]-f\left(\boldsymbol{w}^*\right) & \leqslant \frac{\eta_k l^2}{2}+\frac{\left\|\boldsymbol{w}^*-\boldsymbol{w}_1^k\right\|^2}{2 \eta_k T_k} \\ & \leqslant \frac{\eta_k l^2}{2}+\frac{\Delta_k}{\eta_k T_k \lambda} . \end{aligned}

  因此,k+1k+1 的时候情况也成立 :

E[Δk+1]ηkl22+E[Δk]ηkTkληkl22+l22k2ηkTkλ2=l22k1λ\begin{aligned} \mathbb{E}\left[\Delta_{k+1}\right] & \leqslant \frac{\eta_k l^2}{2}+\frac{\mathbb{E}\left[\Delta_k\right]}{\eta_k T_k \lambda} \\ & \leqslant \frac{\eta_k l^2}{2}+\frac{l^2}{2^{k-2} \eta_k T_k \lambda^2}=\frac{l^2}{2^{k-1} \lambda} \end{aligned}

  引理得证。


定理 7.5 Epoch-GD 的收敛率 当目标函数 f()f(\cdot)λ\lambda-强凸时,Epoch-GD 期望意义上的收敛率为 O(1T)O(\frac{1}{T})

证明 Epoch-GD 外层循环的轮数,是由满足 i=1kTiT\sum_{i=1}^kT_i\leqslant T 的最大 kk 决定的。由于

i=1k2i1T1=(2k1)T1T\sum_{i=1}^k 2^{i-1} T_1=\left(2^k-1\right) T_1 \leqslant T

  因此,最后一轮迭代的轮数 k=log2(T/T1+1)k^{\dagger}=\left\lfloor\log _2\left(T / T_1+1\right)\right\rfloor,而算法的最后输出是 w1k+1\boldsymbol{w}_1^{k^{\dagger}+1},根据引理 7.1,有

E[f(w1k+1)]f(w)=E[Δk+1]Vk+1=l22k1λ16l2λT=O(1λT)\begin{aligned} \mathbb{E}\left[f\left(\boldsymbol{w}_1^{k^{\dagger}+1}\right)\right]&-f\left(\boldsymbol{w}^*\right) =\mathbb{E}\left[\Delta_{k^{\dagger}+1}\right] \\ & \leqslant V_{k^{\dagger}+1}=\frac{l^2}{2^{k^{\dagger}-1} \lambda} \\ & \leqslant \frac{16 l^2}{\lambda T}=O\left(\frac{1}{\lambda T}\right) \end{aligned}

  定理得证。


定理 7.6 针对鞅的 Bernstein 不等式 假设 X1,,XnX_1,\ldots,X_n 是定义在 f=(fi)1inf=(f_i)_{1\leqslant i\leqslant n} 上的有界鞅差分序列,且满足 XiM\left|X_i\right|\leqslant M,令

Si=j=1iXjS_i=\sum_{j=1}^i X_j

  为对应的鞅,将条件方差 (conditional variance) 记为

Vn2=t=1nE[δt2ft1]V_n^2=\sum_{t=1}^n \mathbb{E}\left[\delta_t^2 \mid f_{t-1}\right]

  那么对于任意的正数 ttvv,有

P(maxi=1,,nSi>t and Vn2ν)exp(t22(ν+Kt/3))P\left(\max _{i=1, \ldots, n} S_i>t \text { and } V_n^2 \leqslant \nu\right) \leqslant \exp \left(-\frac{t^2}{2(\nu+K t / 3)}\right)

  因此可以得到

P(maxiSi>2ντ+23Kτ and Vn2ν)eτP\left(\max _i S_i>\sqrt{2 \nu \tau}+\frac{2}{3} K \tau \text { and } V_n^2 \leqslant \nu\right) \leqslant e^{-\tau}

  分析内层循环的随机梯度下降在强凸函数下的收敛性质,有以下引理 :


引理 7.2 假设随机梯度上界为 ll,目标函数 f()f(\cdot)λ\lambda-强凸。运行 TT 轮的随机梯度下降更新

wt+1=ΠW(wtηgt)\boldsymbol{w}_{t+1}=\Pi_{\mathcal{W}}\left(\boldsymbol{w}_t-\eta \mathbf{g}_t\right)

  其中 gt\mathbf{g}_t 是函数 f()f(\cdot)wt\boldsymbol{w}_t 处的随机梯度,以至少 1δ1-\delta 的概率有

t=1Tf(wt)Tf(w)ηTl22+w1w22η+4l2λ(1+83logmδ)\sum_{t=1}^T f\left(\boldsymbol{w}_t\right)-T f\left(\boldsymbol{w}^*\right) \leqslant \frac{\eta T l^2}{2}+\frac{\left\|\boldsymbol{w}_1-\boldsymbol{w}^*\right\|^2}{2 \eta}+\frac{4 l^2}{\lambda}\left(1+\frac{8}{3} \log \frac{m}{\delta}\right)

  其中 m=2log2Tm=\lceil2\log_2T\rceil

证明 由于 f()f(\cdot) 是强凸的,因此

f(wt)f(w)f(wt),wtwλ2wtw2=gt,wtw+f(wt)gt,wtwλ2wtw2\begin{aligned} f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right) & \leqslant\left\langle\nabla f\left(\boldsymbol{w}_t\right), \boldsymbol{w}_t-\boldsymbol{w}^*\right\rangle-\frac{\lambda}{2}\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\|^2 \\ & =\left\langle\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}^*\right\rangle+\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}^*\right\rangle-\frac{\lambda}{2}\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\|^2 \end{aligned}

  对其从 t=1t=1TT 进行求和,有

t=1Tf(wt)Tf(w)ηTl22+w1w22η+t=1Tf(wt)gt,wtwλ2t=1Twtw2\begin{aligned} \sum_{t=1}^T f\left(\boldsymbol{w}_t\right)- & T f\left(\boldsymbol{w}^*\right) \leqslant \frac{\eta T l^2}{2}+\frac{\left\|\boldsymbol{w}_1-\boldsymbol{w}^*\right\|^2}{2 \eta} \\ & +\sum_{t=1}^T\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}^*\right\rangle-\frac{\lambda}{2} \sum_{t=1}^T\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\|^2 \end{aligned}

  定义鞅差序列

δt=f(wt)gt,wtw\delta_t=\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}^*\right\rangle

  为了得到 tδt\sum_t\delta_t 的上界,将利用剥离技术 (peeling technique) 和针对鞅的 Bernstein 不等式。首先,注意到上面的鞅差序列是有界的 :

δtf(wt)gtwtw2l2lλ=4l2λ定义AT=t=1Twtw24l2Tλ2\begin{aligned} \left|\delta_t\right| &\leqslant\left\|\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t\right\|\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\| \leqslant 2 l \frac{2 l}{\lambda}=\frac{4 l^2}{\lambda}\\ \text{定义}&\quad A_T=\sum_{t=1}^T\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\|^2 \leqslant \frac{4 l^2 T}{\lambda^2} \end{aligned}

  对于条件方差,下面的不等式成立 :

VT2=t=1TEt1[δt2]4l2t=1Twtw2=4l2ATV_T^2=\sum_{t=1}^T \mathbb{E}_{t-1}\left[\delta_t^2\right] \leqslant 4 l^2 \sum_{t=1}^T\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\|^2=4 l^2 A_T
  • AT4l2λ2TA_T \leqslant \frac{4 l^2}{\lambda^2 T}
    t=1Tδt2lt=1Twtw2lTt=1Twtw24l2λ\sum_{t=1}^T \delta_t \leqslant 2 l \sum_{t=1}^T\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\| \leqslant 2 l \sqrt{T} \sqrt{\sum_{t=1}^T\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\|^2} \leqslant \frac{4 l^2}{\lambda}
  • AT(4l2λ2T,4l2Tλ2]A_T \in\left(\frac{4 l^2}{\lambda^2 T}, \frac{4 l^2 T}{\lambda^2}\right] 时,分解成 m=2log2Tm=\lceil2\log_2T\rceil 种可能,即
    AT(2i14l2λ2T,2i4l2λ2T],i=1,,2log2TA_T \in\left(2^{i-1} \frac{4 l^2}{\lambda^2 T}, 2^i \frac{4 l^2}{\lambda^2 T}\right], i=1, \ldots,\left\lceil 2 \log _2 T\right\rceil

  综合上面两种情况,通过一系列变换可以证明

P(t=1Tδt24l2ATτ+234l2λτ+4l2λ)=P(t=1Tδt24l2ATτ+234l2λτ+4l2λ,AT4l2λ2T)+P(t=1Tδt24l2ATτ+234l2λτ+4l2λ,4l2λ2T<AT4l2Tλ2)=P(t=1Tδt24l2ATτ+234l2λτ+4l2λ,VT24l2AT,4l2λ2T<AT4l2Tλ2)(利用上面的分解)i=1mP(t=1Tδt24l2ATτ+234l2λτ+4l2λ,VT24l2AT,4l2λ2T2i1<AT4l2λ2T2i)(利用 AT 的上下界来化简不等式)i=1mP(t=1Tδt216l42iλ2Tτ+234l2λτ,VT216l42iλ2T](利用定理 7.6)meτ\begin{aligned} & P\left(\sum_{t=1}^T \delta_t \geqslant 2 \sqrt{4 l^2 A_T \tau}+\frac{2}{3} \frac{4 l^2}{\lambda} \tau+\frac{4 l^2}{\lambda}\right) \\ =& P\left(\sum_{t=1}^T \delta_t \geqslant 2 \sqrt{4 l^2 A_T \tau}+\frac{2}{3} \frac{4 l^2}{\lambda} \tau+\frac{4 l^2}{\lambda}, A_T \leqslant \frac{4 l^2}{\lambda^2 T}\right) \\ +&P\left(\sum_{t=1}^T \delta_t \geqslant 2 \sqrt{4 l^2 A_T \tau}+\frac{2}{3} \frac{4 l^2}{\lambda} \tau+\frac{4 l^2}{\lambda}, \frac{4 l^2}{\lambda^2 T}<A_T \leqslant \frac{4 l^2 T}{\lambda^2}\right)\\ =& P\left(\sum_{t=1}^T \delta_t \geqslant 2 \sqrt{4 l^2 A_T \tau}+\frac{2}{3} \frac{4 l^2}{\lambda} \tau+\frac{4 l^2}{\lambda}, V_T^2 \leqslant 4 l^2 A_T, \frac{4 l^2}{\lambda^2 T}<A_T \leqslant \frac{4 l^2 T}{\lambda^2}\right) \\ &\qquad\text{(利用上面的分解)}\\ \leqslant& \sum_{i=1}^m P\left(\sum_{t=1}^T \delta_t \geqslant 2 \sqrt{4 l^2 A_T \tau}+\frac{2}{3} \frac{4 l^2}{\lambda} \tau+\frac{4 l^2}{\lambda}, \right. \\ &\qquad \left.V_T^2 \leqslant 4 l^2 A_T,\frac{4 l^2}{\lambda^2 T} 2^{i-1}<A_T \leqslant \frac{4 l^2}{\lambda^2 T} 2^i\right) \\ &\qquad\text{(利用 } A_T \text{ 的上下界来化简不等式)}\\ \leqslant & \sum_{i=1}^m P\left(\sum_{t=1}^T \delta_t \geqslant \sqrt{2 \frac{16 l^4 2^i}{\lambda^2 T} \tau}+\frac{2}{3} \frac{4 l^2}{\lambda} \tau, V_T^2 \leqslant \frac{16 l^4 2^i}{\lambda^2 T}\right] \\ &\qquad\text{(利用定理 7.6)}\\ \leqslant & m e^{-\tau} \end{aligned}

  然后令 τ=logmδ=log2log2Tδ\tau=\log\frac{m}{\delta}=\log\frac{\lceil2\log_2T\rceil}{\delta} 可得,以至少 1δ1-\delta 的概率有

t=1Tδt24l2ATlogmδ+8l23λlogmδ+4l2λ\sum_{t=1}^T \delta_t \leqslant 2 \sqrt{4 l^2 A_T \log \frac{m}{\delta}}+\frac{8 l^2}{3 \lambda} \log \frac{m}{\delta}+\frac{4 l^2}{\lambda}

  将其代入上面的累加式,以至少 1δ1-\delta 的概率有

t=1Tf(wt)Tf(w)ηTl22+w1w22η+24l2ATlogmδ+8l23λlogmδ+4l2λλ2ATηTl22+w1w22η+32l23λlogmδ+4l2λ\begin{aligned} & \sum_{t=1}^T f\left(\boldsymbol{w}_t\right)-T f\left(\boldsymbol{w}^*\right) \\ & \leqslant \frac{\eta T l^2}{2}+\frac{\left\|\boldsymbol{w}_1-\boldsymbol{w}^*\right\|^2}{2 \eta}+2 \sqrt{4 l^2 A_T \log \frac{m}{\delta}}+\frac{8 l^2}{3 \lambda} \log \frac{m}{\delta}+\frac{4 l^2}{\lambda}-\frac{\lambda}{2} A_T \\ & \leqslant \frac{\eta T l^2}{2}+\frac{\left\|\boldsymbol{w}_1-\boldsymbol{w}^*\right\|^2}{2 \eta}+\frac{32 l^2}{3 \lambda} \log \frac{m}{\delta}+\frac{4 l^2}{\lambda} \end{aligned}

  引理得证。


  利用引理 7.2 分析 Epoch-GD 外层循环的性质,得到如下引理 :

引理 7.3δ(0,1)\delta\in(0,1) 表示失败的概率,定义

δ~=δkk=log2(2Tα+1)\begin{aligned} \tilde{\delta} & =\frac{\delta}{k^{\dagger}} \\ k^{\dagger} & =\left\lfloor\log _2\left(\frac{2 T}{\alpha}+1\right)\right\rfloor \end{aligned}

  其中 α\alpha 为满足以下条件的最小偶数

α24+1283loglog2(T12+1)2log2Tδ\alpha \geqslant 24+\frac{128}{3} \log \frac{\left\lfloor\log _2\left(\frac{T}{12}+1\right)\right\rfloor\left\lceil 2 \log _2 T\right\rceil}{\delta}

  将 Epoch-GD 的参数设置为 T1=α/2T_1=\alpha/2η1=1/λ\eta_1=1/\lambda,对于任意的 kk,以至少 (1δ~)k1(1-\tilde{\delta})^{k-1} 的概率有

Δk=f(w1k)f(w)Vk=l2λ2k2\Delta_k=f\left(\boldsymbol{w}_1^k\right)-f\left(\boldsymbol{w}^*\right) \leqslant V_k=\frac{l^2}{\lambda 2^{k-2}}

证明 根据 α\alpha 的满足条件可知,α24\alpha\geqslant24,因此

klog2(T12+1)δ~=δkδlog2(T12+1)\begin{aligned} k^{\dagger} & \leqslant\left\lfloor\log _2\left(\frac{T}{12}+1\right)\right\rfloor \\ \tilde{\delta} & =\frac{\delta}{k^{\dagger}} \geqslant \frac{\delta}{\left\lfloor\log _2\left(\frac{T}{12}+1\right)\right\rfloor} \end{aligned}

  由上式解出 δ\delta 代回,可得

α24+1283log2log2Tδ~\alpha \geqslant 24+\frac{128}{3} \log \frac{\left\lceil 2 \log _2 T\right\rceil}{\tilde{\delta}}

  对引理 7.1 中的部分推论进行改写

Tk=8l2λVk=2k+1Tk=αl2λVk=α2k2T_k=\frac{8 l^2}{\lambda V_k}=2^{k+1}\Rightarrow T_k=\frac{\alpha l^2}{\lambda V_k}=\alpha2^{k-2}

  继续使用数学归纳法

  • k=1k=1 时,根据定理 7.2,命题显然成立
  • 假设对于正整数 k1k\geqslant1ΔkVk\Delta_k\leqslant V_k 以至少 (1δ~)k1(1-\tilde{\delta})^{k-1} 的概率成立
  • 考虑 k+1k+1 时,结合定理 7.2,以至少 (1δ~)(1δ~)k1=(1δ~)k(1-\tilde{\delta})\cdot(1-\tilde{\delta})^{k-1}=(1-\tilde{\delta})^{k} 的概率有
Δk+1=f(w1k+1)f(w)1Tkt=1Tkf(wtk)f(w)ηkl22+w1kw22ηkTk+1Tk(1+83logmkδ~)4l2ληkl22+ΔkηkTkλ+1Tk(1+83logmkδ~)4l2λVk4+2Vkα+λVkαl2(1+83logmkδ~)4l2λ=Vk4+Vkα(6+323logmkδ~)\begin{aligned} \Delta_{k+1} & =f\left(\boldsymbol{w}_1^{k+1}\right)-f\left(\boldsymbol{w}^*\right) \\ & \leqslant \frac{1}{T_k} \sum_{t=1}^{T_k} f\left(\boldsymbol{w}_t^k\right)-f\left(\boldsymbol{w}^*\right) \\ & \leqslant \frac{\eta_k l^2}{2}+\frac{\left\|\boldsymbol{w}_1^k-\boldsymbol{w}^*\right\|^2}{2 \eta_k T_k}+\frac{1}{T_k}\left(1+\frac{8}{3} \log \frac{m_k}{\tilde{\delta}}\right) \frac{4 l^2}{\lambda} \\ & \leqslant \frac{\eta_k l^2}{2}+\frac{\Delta_k}{\eta_k T_k \lambda}+\frac{1}{T_k}\left(1+\frac{8}{3} \log \frac{m_k}{\tilde{\delta}}\right) \frac{4 l^2}{\lambda} \\ & \leqslant \frac{V_k}{4}+\frac{2 V_k}{\alpha}+\frac{\lambda V_k}{\alpha l^2}\left(1+\frac{8}{3} \log \frac{m_k}{\tilde{\delta}}\right) \frac{4 l^2}{\lambda} \\ & =\frac{V_k}{4}+\frac{V_k}{\alpha}\left(6+\frac{32}{3} \log \frac{m_k}{\tilde{\delta}}\right) \end{aligned}

  其中 mk=2log2Tkm_k=\lceil2\log_2T_k\rceil,结合 α\alpha 的限制,以至少 (1δ~)k(1-\tilde{\delta})^{k} 的概率有

Δk+1Vk2=Vk+1\Delta_{k+1}\leqslant\frac{V_k}{2}=V_{k+1}

  k+1k+1 的时候递归成立,数学归纳法成立,命题得证。


定理 7.7 Epoch-GD 大概率情况下的收敛率 若目标函数 f()f(\cdot)λ\lambda-强凸函数,Epoch-GD 以大概率取得 O(loglogTλT)O(\frac{\log\log T}{\lambda T}) 的收敛率

证明 Epoch-GD 外层循环的轮数,是由满足 i=1kTiT\sum_{i=1}^kT_i\leqslant T 的最大 kk 决定的,由于

i=1kTi=i=1kα2i2=α2(2k1)\sum_{i=1}^k T_i=\sum_{i=1}^k \alpha 2^{i-2}=\frac{\alpha}{2}\left(2^k-1\right)

  因此,最后一轮迭代的轮数 kk^{\dagger} 与引理 7.3 中的定义相吻合,算法最终输出是 w1k+1\boldsymbol{w}^{k^{\dagger}+1}_1。根据引理 7.3,以至少 (1δ~)k(1-\tilde{\delta})^{k^{\dagger}} 的概率有

f(w1k+1)f(w)=Δk+1Vk+1=l22k1λ2αl2λT\begin{aligned} f\left(\boldsymbol{w}_1^{k^{\dagger}+1}\right)-f\left(\boldsymbol{w}^*\right) & =\Delta_{k^{\dagger}+1} \\ & \leqslant V_{k^{\dagger}+1}=\frac{l^2}{2^{k^{\dagger}-1} \lambda} \leqslant \frac{2 \alpha l^2}{\lambda T} \end{aligned}

  然后,证明概率 (1δ~)k>1δ(1-\tilde{\delta})^{k^{\dagger}}>1-\delta,由于函数 (11x)x(1-\frac{1}{x})^xx>1x>1 时是增函数,因此

(1δ~)k=(1δk)k=((11k/δ)k/δ)δ((111/δ)1/δ)δ=1δ\begin{aligned} (1-\tilde{\delta})^{k^{\dagger}}=\left(1-\frac{\delta}{k^{\dagger}}\right)^{k^{\dagger}} & =\left(\left(1-\frac{1}{k^{\dagger} / \delta}\right)^{k^{\dagger} / \delta}\right)^\delta \\ & \geqslant\left(\left(1-\frac{1}{1 / \delta}\right)^{1 / \delta}\right)^\delta=1-\delta \end{aligned}

  由上面两式可知,以至少 1δ1-\delta 的概率有

f(w1k+1)f(w)2αl2λT=O(loglogTλT)f\left(\boldsymbol{w}_1^{k^{\dagger}+1}\right)-f\left(\boldsymbol{w}^*\right) \leqslant \frac{2 \alpha l^2}{\lambda T}=O\left(\frac{\log \log T}{\lambda T}\right)

  定理得证。


7.4 实例分析

7.4.1 支持向量机

  首先引入如何使用确定优化方法来求解支持向量机 (Supporting Vector Machine, SVM) : 令 (x1,y1),,(xm,ym)(\boldsymbol{x}_1,y_1),\ldots,(\boldsymbol{x}_m,y_m)mm 个训练样本,其中 xiRd,yi{1,+1}\boldsymbol{x}_i\in\mathbb{R}^d,y_i\in\{-1,+1\},支持向量机的优化问题为 :

minwf(w)=i=1mmax(0,1yiwTxi) s.t. wΛ\begin{aligned} & \min _{\boldsymbol{w}} f(\boldsymbol{w})=\sum_{i=1}^m \max \left(0,1-y_i \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i\right) \\ & \text { s.t. }\|\boldsymbol{w}\| \leqslant \Lambda \end{aligned}

  由于 hinge 损失并不光滑,需要对梯度进行如下的计算替换,称之为次梯度 (sub-gradient) :

f(w)=i=1mgi,gi={yixi,1yiwTxi00,1yiwTxi<0\begin{aligned} \nabla f(\boldsymbol{w}) & =\sum_{i=1}^m \mathbf{g}_i, \\ \mathbf{g}_i & = \begin{cases}-y_i \boldsymbol{x}_i, & 1-y_i \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i \geqslant 0 \\ 0, & 1-y_i \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i<0 \end{cases} \end{aligned}

  由于目标函数是凸函数,可以将 7.2.1 节中的梯度下降算法来进行求解。具体如下 :

  根据定理 7.1 的分析,可以得到如下收敛率。


定理 7.8 优化支持向量机的收敛率 梯度下降求解支持向量机的收敛率为 O(1T)O(\frac{1}{\sqrt{T}})

证明 假设 xir,i[m]\lVert\boldsymbol{x}_i\rVert\leqslant r,i\in[m],根据定理 7.1 步长的设置依赖于梯度的上界,梯度上界为

f(w)i=1myiximr\|\nabla f(\boldsymbol{w})\| \leqslant \sum_{i=1}^m\left\|y_i \boldsymbol{x}_i\right\| \leqslant m r

  可行域的直径为 Γ=2Λ\Gamma=2\Lambda,根据定理 7.1,将步长设置为 η=2Λ/(mrT)\eta=2\Lambda/(mr\sqrt{T})

f(wT)minwΛf(w)2mrΛT=O(1T)f\left(\overline{\boldsymbol{w}}_T\right)-\min _{\|\boldsymbol{w}\| \leqslant \Lambda} f(\boldsymbol{w}) \leqslant \frac{2 m r \Lambda}{\sqrt{T}}=O\left(\frac{1}{\sqrt{T}}\right)

  定理得证。


7.4.2 对率回归

  给定训练数据集 D={(x1,y1),,(xm,ym)}D=\{(\boldsymbol{x}_1,y_1),\ldots,(\boldsymbol{x}_m,y_m)\},对率回归的优化问题如下 :

minwf(w)=1mi=1mln(1+exp(yiwTxi)) s.t. wΛ\begin{aligned} \min _{\boldsymbol{w}} f(\boldsymbol{w})&=\frac{1}{m} \sum_{i=1}^m \ln \left(1+\exp \left(-y_i \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i\right)\right) \\ \text { s.t. }&\quad\|\boldsymbol{w}\| \leqslant \Lambda \end{aligned}

  为了计算随机梯度,将在每一轮均匀随机选择 1 个样本作为输入,将 tt 轮迭代选取的样本记为 (xt,yt)(\boldsymbol{x}_t,y_t),则 f()f(\cdot) 在当前解 wt\boldsymbol{w}_t 处的随机梯度可以计算为

gt=ytexp(ytwtTxt)1+exp(ytwiTxt)xt\mathbf{g}_t=\frac{y_t \exp \left(-y_t \boldsymbol{w}_t^{\mathrm{T}} \boldsymbol{x}_t\right)}{1+\exp \left(-y_t \boldsymbol{w}_i^{\mathrm{T}} \boldsymbol{x}_t\right)} \boldsymbol{x}_t

  根据定理 7.4 的分析,可以得到如下收敛率


定理 7.9 优化对率回归的收敛率 随机梯度下降求解对率回归的收敛率为 O(1T)O(\frac{1}{\sqrt{T}})

证明 假设 xir,i[m]\lVert\boldsymbol{x}_i\rVert\leqslant r,i\in[m],首先计算随机梯度的上界

exp(ytwtTxt)1+exp(ytwtTxt)ytxtxtr\left\|\frac{\exp \left(-y_t \boldsymbol{w}_t^{\mathrm{T}} \boldsymbol{x}_t\right)}{1+\exp \left(-y_t \boldsymbol{w}_t^{\mathrm{T}} \boldsymbol{x}_t\right)} y_t \boldsymbol{x}_t\right\| \leqslant\left\|\boldsymbol{x}_t\right\| \leqslant r

  因为可行域的直径 Γ=2Λ\Gamma=2\Lambda,依据定理 7.4,调整步长为 η=2Λ/(rT)\eta=2\Lambda/(r\sqrt{T}),则以至少 1δ1-\delta 的概率有

f(wˉT)minwΛf(w)2ΛrT(1+22log1δ)=O(1T)f\left(\bar{\boldsymbol{w}}_T\right)-\min _{\|\boldsymbol{w}\| \leqslant \Lambda} f(\boldsymbol{w}) \leqslant \frac{2 \Lambda r}{\sqrt{T}}\left(1+2 \sqrt{2 \log \frac{1}{\delta}}\right)=O\left(\frac{1}{\sqrt{T}}\right)

  定理得证