《机器学习理论导引》笔记目录
0 感言
感觉这章整体而言自己理解得并不充分,更多像是把周老师的教材进行打印,之后有时间我会重新进行整理的。
7.3 随机优化
7.3.1 凸函数
下给出随机优化的代表性算法——随机梯度下降法 (Stochastic Gradient Descent,SGD) 的流程。
其中要求 w t \boldsymbol{w}_t w t 的随机梯度 g t \boldsymbol{g}_t g t 是真实梯度 ∇ f ( w t ) \nabla f(\boldsymbol{w}_t) ∇ f ( w t ) 的无偏估计,即 :
E [ g t ] = ∇ f ( w t ) \mathbb{E}[\boldsymbol{g}_t] = \nabla f(\boldsymbol{w}_t) E [ g t ] = ∇ f ( w t )
上述方法非常适合机器学习问题。下面以监督学习为例,监督学习的最终目标是最小化泛化风险,令数据分布为 D \mathcal{D} D ,可以用风险最小化 (Risk Minimization) 的方法来描述监督学习的目标 :
min w ∈ W f ( w ) = E z ∼ D [ ℓ ( w , z ) ] \min _{\boldsymbol{w} \in \mathcal{W}} f(\boldsymbol{w})=\mathbb{E}_{\boldsymbol{z} \sim \mathcal{D}}[\ell(\boldsymbol{w}, \boldsymbol{z})] w ∈ W min f ( w ) = E z ∼ D [ ℓ ( w , z )]
其中 z ∈ D \boldsymbol{z} \in \mathcal{D} z ∈ D 表示 z \boldsymbol{z} z 是从数据分布 D \mathcal{D} D 中采样获得,ℓ ( ⋅ , ⋅ ) \ell(\cdot,\cdot) ℓ ( ⋅ , ⋅ ) 为损失函数,但是在现实场景中很难直接获得真实的数据分布 D \mathcal{D} D ,因此经常采用经验风险最小化 (Empirical Risk Minimization,ERM) 的方法来近似风险最小化的目标 : 从数据分布 D \mathcal{D} D 中采样获得 m m m 个样本 z 1 , z 2 , ⋯ , z m , ∀ z i = ( x i , y i ) \boldsymbol{z}_1,\boldsymbol{z}_2,\cdots,\boldsymbol{z}_m,\forall \boldsymbol{z}_i=(\boldsymbol{x}_i,y_i) z 1 , z 2 , ⋯ , z m , ∀ z i = ( x i , y i ) ,x i \boldsymbol{x}_i x i 为样本特征,y i y_i y i 为样本标记,然后用这 n n n 个样本来近似风险最小化的目标 :
min w ∈ W f ( w ) = 1 m ∑ i = 1 m ℓ ( w , z i ) \min_{\boldsymbol{w} \in \mathcal{W}} f(\boldsymbol{w})=\frac{1}{m} \sum_{i=1}^{m} \ell(\boldsymbol{w}, \boldsymbol{z}_i) w ∈ W min f ( w ) = m 1 i = 1 ∑ m ℓ ( w , z i )
当 m m m 很大的时候计算代价很高,因此采用随机梯度下降法 (Stochastic Gradient Descent,SGD) 来近似风险最小化的目标,将上述算法中第 3 步改为下式即可 :
w t + 1 ′ = w t − η t ∇ ℓ ( w t , z t ) \boldsymbol{w}_{t+1}'=\boldsymbol{w}_{t}-\eta_{t}\nabla \ell\left(\boldsymbol{w}_{t}, \boldsymbol{z}_{t}\right) w t + 1 ′ = w t − η t ∇ ℓ ( w t , z t )
其中 z t \boldsymbol{z}_t z t 表示从数据分布 D \mathcal{D} D 中随机采样获得的样本,从上面的描述可以看出随机梯度下降每轮迭代只需要利用 1 个样本。而对于一般的 Lipschitz 连续凸函数,随机梯度下降法的收敛速度为 O ( 1 T ) O(\frac{1}{\sqrt{T}}) O ( T 1 ) ,具体有如下定理 :
定理 7.4 随机梯度下降收敛率 假设目标函数的随机梯度有上界,且可行域有界,则随机梯度下降的收敛率为 O ( 1 T ) O(\frac{1}{\sqrt{T}}) O ( T 1 ) 。
证明 假设随机梯度上界为 l l l ,可行域 W \mathcal{W} W 直径为 Γ \Gamma Γ ,即对于任意 t ∈ [ T ] , u , v ∈ W t\in[T],u,v\in\mathcal{W} t ∈ [ T ] , u , v ∈ W
∥ g t ∥ ⩽ l ∥ u − v ∥ ⩽ Γ \begin{array}{r}
\left\|\mathbf{g}_t\right\| \leqslant l \\
\|\boldsymbol{u}-\boldsymbol{v}\| \leqslant \Gamma
\end{array} ∥ g t ∥ ⩽ l ∥ u − v ∥ ⩽ Γ
同样为了简化分析,考虑固定的步长 η t = η \eta_t=\eta η t = η ,则对于任意的 w ∈ W w\in\mathcal{W} w ∈ W ,
f ( w t ) − f ( w ) ⩽ ⟨ ∇ f ( w t ) , w t − w ⟩ = ⟨ g t , w t − w ⟩ + ⟨ ∇ f ( w t ) − g t , w t − w ⟩ = 1 η ⟨ w t − w t + 1 ′ , w t − w ⟩ + ⟨ ∇ f ( w t ) − g t , w t − w ⟩ = 1 2 η ( ∥ w t − w ∥ 2 − ∥ w t + 1 ′ − w ∥ 2 + ∥ w t − w t + 1 ′ ∥ 2 ) + ⟨ ∇ f ( w t ) − g t , w t − w ⟩ = 1 2 η ( ∥ w t − w ∥ 2 − ∥ w t + 1 ′ − w ∥ 2 ) + η 2 ∥ g t ∥ 2 + ⟨ ∇ f ( w t ) − g t , w t − w ⟩ (利用 ∥ Π W ( x ) − Π W ( z ) ∥ ⩽ ∥ x − z ∥ , ∀ x , z ) ⩽ 1 2 η ( ∥ w t − w ∥ 2 − ∥ w t + 1 − w ∥ 2 ) + η 2 ∥ g t ∥ 2 + ⟨ ∇ f ( w t ) − g t , w t − w ⟩ ⩽ 1 2 η ( ∥ w t − w ∥ 2 − ∥ w t + 1 − w ∥ 2 ) + η 2 l 2 + ⟨ ∇ f ( w t ) − g t , w t − w ⟩ \begin{aligned}
& f\left(\boldsymbol{w}_t\right)-f(\boldsymbol{w}) \\
& \leqslant\left\langle\nabla f\left(\boldsymbol{w}_t\right), \boldsymbol{w}_t-\boldsymbol{w}\right\rangle=\left\langle\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle+\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\
& =\frac{1}{\eta}\left\langle\boldsymbol{w}_t-\boldsymbol{w}_{t+1}^{\prime}, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle+\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\
& =\frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}^{\prime}-\boldsymbol{w}\right\|^2+\left\|\boldsymbol{w}_t-\boldsymbol{w}_{t+1}^{\prime}\right\|^2\right)+\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\
& =\frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}^{\prime}-\boldsymbol{w}\right\|^2\right)+\frac{\eta}{2}\left\|\mathbf{g}_t\right\|^2+\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\
&\quad\text{(利用}\left\|\Pi_{\mathcal{W}}(\boldsymbol{x})-\Pi_{\mathcal{W}}(\boldsymbol{z})\right\| \leqslant\|\boldsymbol{x}-\boldsymbol{z}\|, \quad \forall \boldsymbol{x}, \boldsymbol{z})
\\
& \leqslant \frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}-\boldsymbol{w}\right\|^2\right)+\frac{\eta}{2}\left\|\mathbf{g}_t\right\|^2+\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\
& \leqslant \frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{t+1}-\boldsymbol{w}\right\|^2\right)+\frac{\eta}{2} l^2+\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle
\end{aligned} f ( w t ) − f ( w ) ⩽ ⟨ ∇ f ( w t ) , w t − w ⟩ = ⟨ g t , w t − w ⟩ + ⟨ ∇ f ( w t ) − g t , w t − w ⟩ = η 1 ⟨ w t − w t + 1 ′ , w t − w ⟩ + ⟨ ∇ f ( w t ) − g t , w t − w ⟩ = 2 η 1 ( ∥ w t − w ∥ 2 − ∥ ∥ w t + 1 ′ − w ∥ ∥ 2 + ∥ ∥ w t − w t + 1 ′ ∥ ∥ 2 ) + ⟨ ∇ f ( w t ) − g t , w t − w ⟩ = 2 η 1 ( ∥ w t − w ∥ 2 − ∥ ∥ w t + 1 ′ − w ∥ ∥ 2 ) + 2 η ∥ g t ∥ 2 + ⟨ ∇ f ( w t ) − g t , w t − w ⟩ ( 利用 ∥ Π W ( x ) − Π W ( z ) ∥ ⩽ ∥ x − z ∥ , ∀ x , z ) ⩽ 2 η 1 ( ∥ w t − w ∥ 2 − ∥ w t + 1 − w ∥ 2 ) + 2 η ∥ g t ∥ 2 + ⟨ ∇ f ( w t ) − g t , w t − w ⟩ ⩽ 2 η 1 ( ∥ w t − w ∥ 2 − ∥ w t + 1 − w ∥ 2 ) + 2 η l 2 + ⟨ ∇ f ( w t ) − g t , w t − w ⟩
对上面的不等式从 t = 1 t=1 t = 1 到 t = T t=T t = T 求和,得到
∑ t = 1 T f ( w t ) − T f ( w ) ⩽ 1 2 η ( ∥ w 1 − w ∥ 2 − ∥ w T + 1 − w ∥ 2 ) + η T 2 l 2 + ∑ t = 1 T ⟨ ∇ f ( w t ) − g t , w t − w ⟩ ⩽ 1 2 η ∥ w 1 − w ∥ 2 + η T 2 l 2 + ∑ t = 1 T ⟨ ∇ f ( w t ) − g t , w t − w ⟩ ⩽ 1 2 η Γ 2 + η T 2 l 2 + ∑ t = 1 T ⟨ ∇ f ( w t ) − g t , w t − w ⟩ \begin{aligned}
& \sum_{t=1}^T f\left(\boldsymbol{w}_t\right)-T f(\boldsymbol{w}) \\
& \quad \leqslant \frac{1}{2 \eta}\left(\left\|\boldsymbol{w}_1-\boldsymbol{w}\right\|^2-\left\|\boldsymbol{w}_{T+1}-\boldsymbol{w}\right\|^2\right)+\frac{\eta T}{2} l^2+\sum_{t=1}^T\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\
& \quad \leqslant \frac{1}{2 \eta}\left\|\boldsymbol{w}_1-\boldsymbol{w}\right\|^2+\frac{\eta T}{2} l^2+\sum_{t=1}^T\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \\
& \quad \leqslant \frac{1}{2 \eta} \Gamma^2+\frac{\eta T}{2} l^2+\sum_{t=1}^T\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle
\end{aligned} t = 1 ∑ T f ( w t ) − T f ( w ) ⩽ 2 η 1 ( ∥ w 1 − w ∥ 2 − ∥ w T + 1 − w ∥ 2 ) + 2 η T l 2 + t = 1 ∑ T ⟨ ∇ f ( w t ) − g t , w t − w ⟩ ⩽ 2 η 1 ∥ w 1 − w ∥ 2 + 2 η T l 2 + t = 1 ∑ T ⟨ ∇ f ( w t ) − g t , w t − w ⟩ ⩽ 2 η 1 Γ 2 + 2 η T l 2 + t = 1 ∑ T ⟨ ∇ f ( w t ) − g t , w t − w ⟩
最后,依据 Jensen 不等式,有
f ( w ‾ T ) − f ( w ) = f ( 1 T ∑ t = 1 T w t ) − f ( w ) ⩽ 1 T ∑ t = 1 T f ( w t ) − f ( w ) ⩽ Γ 2 2 η T + η l 2 2 + 1 T ∑ t = 1 T ⟨ ∇ f ( w t ) − g t , w t − w ⟩ \begin{aligned}
f\left(\overline{\boldsymbol{w}}_T\right)-f(\boldsymbol{w}) & =f\left(\frac{1}{T} \sum_{t=1}^T \boldsymbol{w}_t\right)-f(\boldsymbol{w}) \\
& \leqslant \frac{1}{T} \sum_{t=1}^T f\left(\boldsymbol{w}_t\right)-f(\boldsymbol{w}) \\
& \leqslant \frac{\Gamma^2}{2 \eta T}+\frac{\eta l^2}{2}+\frac{1}{T} \sum_{t=1}^T\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle
\end{aligned} f ( w T ) − f ( w ) = f ( T 1 t = 1 ∑ T w t ) − f ( w ) ⩽ T 1 t = 1 ∑ T f ( w t ) − f ( w ) ⩽ 2 η T Γ 2 + 2 η l 2 + T 1 t = 1 ∑ T ⟨ ∇ f ( w t ) − g t , w t − w ⟩
可以看出,上式与章节 7.2.1 中梯度下降分析的结果的区别在于多了一项 1 T ∑ t = 1 T ⟨ ∇ f ( w t ) − g t , w t − w ⟩ \frac{1}{T} \sum_{t=1}^T\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle T 1 ∑ t = 1 T ⟨ ∇ f ( w t ) − g t , w t − w ⟩
下面证明随机梯度下降算法期望意义上的收敛率,利用 w t \boldsymbol{w}_t w t 的随机梯度 g t \boldsymbol{g}_t g t 是真实梯度 ∇ f ( w t ) \nabla f(\boldsymbol{w}_t) ∇ f ( w t ) 的无偏估计,有
E [ ∑ t = 1 T ⟨ ∇ f ( w t ) − g t , w t − w ⟩ ] = E [ ∑ t = 1 T ⟨ ∇ f ( w t ) , w t − w ⟩ ] − E [ ∑ t = 1 T ⟨ g t , w t − w ⟩ ] = ∑ t = 1 T [ E [ ⟨ ∇ f ( w t ) , w t − w ⟩ ] − E [ ⟨ g t , w t − w ⟩ ] ] = ∑ t = 1 T [ E [ ⟨ E [ g t ] , w t − w ⟩ ] − E [ ⟨ g t , w t − w ⟩ ] ] = ∑ t = 1 T [ E [ g t , w t − w ⟩ ] − E [ ⟨ g t , w t − w ⟩ ] ] = 0 \begin{aligned}
&\mathbb{E}\left[\sum_{t=1}^T\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\rangle\right] \\
=&\mathbb{E}\left[\sum_{t=1}^T\langle\nabla f\left(\boldsymbol{w}_t\right), \boldsymbol{w}_t-\boldsymbol{w}\rangle\right]-\mathbb{E}\left[\sum_{t=1}^T\langle\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\rangle\right] \\
=&\sum_{t=1}^T\left[\mathbb{E}\left[\langle\nabla f\left(\boldsymbol{w}_t\right), \boldsymbol{w}_t-\boldsymbol{w}\rangle\right]-\mathbb{E}\left[\langle\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\rangle\right]\right] \\
=&\sum_{t=1}^T\left[\mathbb{E}\left[\langle\mathbb{E}\left[\mathbf{g}_t\right], \boldsymbol{w}_t-\boldsymbol{w}\rangle\right]-\mathbb{E}\left[\langle\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\rangle\right]\right] \\
=&\sum_{t=1}^T\left[\mathbb{E}\left[\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\rangle\right]-\mathbb{E}\left[\langle\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\rangle\right]\right] \\
=&0
\end{aligned} = = = = = E [ t = 1 ∑ T ⟨ ∇ f ( w t ) − g t , w t − w ⟩ ] E [ t = 1 ∑ T ⟨ ∇ f ( w t ) , w t − w ⟩ ] − E [ t = 1 ∑ T ⟨ g t , w t − w ⟩ ] t = 1 ∑ T [ E [ ⟨ ∇ f ( w t ) , w t − w ⟩ ] − E [ ⟨ g t , w t − w ⟩ ] ] t = 1 ∑ T [ E [ ⟨ E [ g t ] , w t − w ⟩ ] − E [ ⟨ g t , w t − w ⟩ ] ] t = 1 ∑ T [ E [ g t , w t − w ⟩ ] − E [ ⟨ g t , w t − w ⟩ ] ] 0
对于上面的不等式求期望有
E [ f ( w ‾ T ) ] − f ( w ) ⩽ Γ 2 2 η T + η l 2 2 = l Γ T \mathbb{E}\left[f\left(\overline{\boldsymbol{w}}_T\right)\right]-f(\boldsymbol{w}) \leqslant \frac{\Gamma^2}{2 \eta T}+\frac{\eta l^2}{2}=\frac{l \Gamma}{\sqrt{T}} E [ f ( w T ) ] − f ( w ) ⩽ 2 η T Γ 2 + 2 η l 2 = T l Γ
其中令 η = Γ / ( l T ) \eta=\Gamma/(l\sqrt{T}) η = Γ/ ( l T )
前面的分析证明了从期望意义上的收敛率,为了分析随机梯度下降算法的理论保障,将利用针对鞅差序列的 Azuma 不等式,利用 w t \boldsymbol{w}_t w t 的随机梯度 g t \boldsymbol{g}_t g t 是真实梯度 ∇ f ( w t ) \nabla f(\boldsymbol{w}_t) ∇ f ( w t ) 的无偏估计,可知 ⟨ ∇ f ( w 1 ) − g 1 , w 1 − w ⟩ , … \langle\nabla f(\boldsymbol{w}_1)-g_1,\boldsymbol{w}_1-\boldsymbol{w}\rangle,\ldots ⟨ ∇ f ( w 1 ) − g 1 , w 1 − w ⟩ , … 组成一个鞅差序列,有
∣ ⟨ ∇ f ( w t ) − g t , w t − w ⟩ ∣ ⩽ ∥ ∇ f ( w t ) − g t ∥ ∥ w t − w ∥ ⩽ Γ ( ∥ ∇ f ( w t ) ∥ + ∥ g t ∥ ) ⩽ 2 l Γ \begin{aligned}
\left|\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle\right| & \leqslant\left\|\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t\right\|\left\|\boldsymbol{w}_t-\boldsymbol{w}\right\| \\
& \leqslant \Gamma\left(\left\|\nabla f\left(\boldsymbol{w}_t\right)\right\|+\left\|\boldsymbol{g}_t\right\|\right) \leqslant 2 l \Gamma
\end{aligned} ∣ ⟨ ∇ f ( w t ) − g t , w t − w ⟩ ∣ ⩽ ∥ ∇ f ( w t ) − g t ∥ ∥ w t − w ∥ ⩽ Γ ( ∥ ∇ f ( w t ) ∥ + ∥ g t ∥ ) ⩽ 2 l Γ
上式的推导过程中利用了 Jensen 不等式获得 ∥ ∇ f ( w t ) ∥ \lVert\nabla f(\boldsymbol{w}_t)\rVert ∥ ∇ f ( w t )∥ 的上界
∥ ∇ f ( w t ) ∥ = ∥ E [ g t ] ∥ ⩽ E [ ∥ g t ∥ ] ⩽ l \left\|\nabla f\left(\boldsymbol{w}_t\right)\right\|=\left\|\mathbb{E}\left[\mathbf{g}_t\right]\right\| \leqslant \mathbb{E}\left[\left\|\mathbf{g}_t\right\|\right] \leqslant l ∥ ∇ f ( w t ) ∥ = ∥ E [ g t ] ∥ ⩽ E [ ∥ g t ∥ ] ⩽ l
根据 Azuma 不等式推论 P ( ∑ i = 1 m X i ⩾ ϵ ) ⩽ e − ϵ 2 / 2 ∑ i = 1 m c i 2 P\left(\sum_{i=1}^m X_i \geqslant \epsilon\right) \leqslant e^{-\epsilon^2 / 2 \sum_{i=1}^m c_i^2} P ( ∑ i = 1 m X i ⩾ ϵ ) ⩽ e − ϵ 2 /2 ∑ i = 1 m c i 2 ,以至少 1 − δ 1-\delta 1 − δ 的概率有
∑ t = 1 T ⟨ ∇ f ( w t ) − g t , w t − w ⟩ ⩽ 2 l Γ 2 T log 1 δ \sum_{t=1}^T\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}\right\rangle \leqslant 2 l \Gamma \sqrt{2 T \log \frac{1}{\delta}} t = 1 ∑ T ⟨ ∇ f ( w t ) − g t , w t − w ⟩ ⩽ 2 l Γ 2 T log δ 1
将上式代入前面的不等式,以至少 1 − δ 1-\delta 1 − δ 的概率有
f ( w ‾ T ) − f ( w ) ⩽ Γ 2 2 η T + η l 2 2 + 2 l Γ 2 T log 1 δ = l Γ T ( 1 + 2 2 log 1 δ ) = O ( 1 T ) \begin{aligned}
f\left(\overline{\boldsymbol{w}}_T\right)-f(\boldsymbol{w}) & \leqslant \frac{\Gamma^2}{2 \eta T}+\frac{\eta l^2}{2}+2 l \Gamma \sqrt{\frac{2}{T} \log \frac{1}{\delta}}\\&=\frac{l \Gamma}{\sqrt{T}}\left(1+2 \sqrt{2 \log \frac{1}{\delta}}\right)
=O\left(\frac{1}{\sqrt{T}}\right)
\end{aligned} f ( w T ) − f ( w ) ⩽ 2 η T Γ 2 + 2 η l 2 + 2 l Γ T 2 log δ 1 = T l Γ ( 1 + 2 2 log δ 1 ) = O ( T 1 )
7.3.2 强凸函数
为了处理强凸函数,引入阶段随机梯度下降 (Epoch-GD) 算法,其流程如下 :
若目标函数 f : W ↦ R f:\mathcal{W}\mapsto\mathbb{R} f : W ↦ R 是 λ \lambda λ -强凸的,在期望意义上的 Epoch-GD 的额外风险界为 O ( 1 / [ λ T ] ) O(1/[\lambda T]) O ( 1/ [ λ T ]) ,下进行相关证明
引理 7.1 将 Epoch-GD 的参数设置为 T 1 = 4 T_1=4 T 1 = 4 和 η 1 = 1 / λ \eta_1=1/\lambda η 1 = 1/ λ ,l l l 为随机梯度的上界,令 Δ k = f ( w 1 k ) − f ( w ∗ ) , V k = l 2 / ( λ 2 k − 2 ) \Delta_k=f(\boldsymbol{w}_1^k)-f(\boldsymbol{w}^*),V_k=l^2/(\lambda2^{k-2}) Δ k = f ( w 1 k ) − f ( w ∗ ) , V k = l 2 / ( λ 2 k − 2 ) ,对于任意的 k k k
E [ Δ k ] ⩽ V k \mathbb{E}\left[\Delta_k\right] \leqslant V_k E [ Δ k ] ⩽ V k
证明 当随机梯度的上界为 l l l 时,根据先前推论 ∥ ∇ f ( w t ) ∥ = ∥ E [ g t ] ∥ ⩽ E [ ∥ g t ∥ ] ⩽ l \left\|\nabla f\left(\boldsymbol{w}_t\right)\right\|=\left\|\mathbb{E}\left[\mathbf{g}_t\right]\right\| \leqslant \mathbb{E}\left[\left\|\mathbf{g}_t\right\|\right] \leqslant l ∥ ∇ f ( w t ) ∥ = ∥ E [ g t ] ∥ ⩽ E [ ∥ g t ∥ ] ⩽ l 可知,真实梯度的上界也为 l l l 。因此,定理 7.2 成立。然后易知下面式子成立 :
T k = 8 l 2 λ V k = 2 k + 1 η k = V k 2 l 2 = 1 λ 2 k − 1 \begin{aligned}
T_k & =\frac{8 l^2}{\lambda V_k}=2^{k+1} \\
\eta_k & =\frac{V_k}{2 l^2}=\frac{1}{\lambda 2^{k-1}}
\end{aligned} T k η k = λ V k 8 l 2 = 2 k + 1 = 2 l 2 V k = λ 2 k − 1 1
下使用数学归纳法来进行证明
因此,k + 1 k+1 k + 1 的时候情况也成立 :
E [ Δ k + 1 ] ⩽ η k l 2 2 + E [ Δ k ] η k T k λ ⩽ η k l 2 2 + l 2 2 k − 2 η k T k λ 2 = l 2 2 k − 1 λ \begin{aligned}
\mathbb{E}\left[\Delta_{k+1}\right] & \leqslant \frac{\eta_k l^2}{2}+\frac{\mathbb{E}\left[\Delta_k\right]}{\eta_k T_k \lambda} \\
& \leqslant \frac{\eta_k l^2}{2}+\frac{l^2}{2^{k-2} \eta_k T_k \lambda^2}=\frac{l^2}{2^{k-1} \lambda}
\end{aligned} E [ Δ k + 1 ] ⩽ 2 η k l 2 + η k T k λ E [ Δ k ] ⩽ 2 η k l 2 + 2 k − 2 η k T k λ 2 l 2 = 2 k − 1 λ l 2
引理得证。
定理 7.5 Epoch-GD 的收敛率 当目标函数 f ( ⋅ ) f(\cdot) f ( ⋅ ) 为 λ \lambda λ -强凸时,Epoch-GD 期望意义上的收敛率为 O ( 1 T ) O(\frac{1}{T}) O ( T 1 ) 。
证明 Epoch-GD 外层循环的轮数,是由满足 ∑ i = 1 k T i ⩽ T \sum_{i=1}^kT_i\leqslant T ∑ i = 1 k T i ⩽ T 的最大 k k k 决定的。由于
∑ i = 1 k 2 i − 1 T 1 = ( 2 k − 1 ) T 1 ⩽ T \sum_{i=1}^k 2^{i-1} T_1=\left(2^k-1\right) T_1 \leqslant T i = 1 ∑ k 2 i − 1 T 1 = ( 2 k − 1 ) T 1 ⩽ T
因此,最后一轮迭代的轮数 k † = ⌊ log 2 ( T / T 1 + 1 ) ⌋ k^{\dagger}=\left\lfloor\log _2\left(T / T_1+1\right)\right\rfloor k † = ⌊ log 2 ( T / T 1 + 1 ) ⌋ ,而算法的最后输出是 w 1 k † + 1 \boldsymbol{w}_1^{k^{\dagger}+1} w 1 k † + 1 ,根据引理 7.1,有
E [ f ( w 1 k † + 1 ) ] − f ( w ∗ ) = E [ Δ k † + 1 ] ⩽ V k † + 1 = l 2 2 k † − 1 λ ⩽ 16 l 2 λ T = O ( 1 λ T ) \begin{aligned}
\mathbb{E}\left[f\left(\boldsymbol{w}_1^{k^{\dagger}+1}\right)\right]&-f\left(\boldsymbol{w}^*\right) =\mathbb{E}\left[\Delta_{k^{\dagger}+1}\right] \\
& \leqslant V_{k^{\dagger}+1}=\frac{l^2}{2^{k^{\dagger}-1} \lambda} \\
& \leqslant \frac{16 l^2}{\lambda T}=O\left(\frac{1}{\lambda T}\right)
\end{aligned} E [ f ( w 1 k † + 1 ) ] − f ( w ∗ ) = E [ Δ k † + 1 ] ⩽ V k † + 1 = 2 k † − 1 λ l 2 ⩽ λ T 16 l 2 = O ( λ T 1 )
定理得证。
定理 7.6 针对鞅的 Bernstein 不等式 假设 X 1 , … , X n X_1,\ldots,X_n X 1 , … , X n 是定义在 f = ( f i ) 1 ⩽ i ⩽ n f=(f_i)_{1\leqslant i\leqslant n} f = ( f i ) 1 ⩽ i ⩽ n 上的有界鞅差分序列,且满足 ∣ X i ∣ ⩽ M \left|X_i\right|\leqslant M ∣ X i ∣ ⩽ M ,令
S i = ∑ j = 1 i X j S_i=\sum_{j=1}^i X_j S i = j = 1 ∑ i X j
为对应的鞅,将条件方差 (conditional variance) 记为
V n 2 = ∑ t = 1 n E [ δ t 2 ∣ f t − 1 ] V_n^2=\sum_{t=1}^n \mathbb{E}\left[\delta_t^2 \mid f_{t-1}\right] V n 2 = t = 1 ∑ n E [ δ t 2 ∣ f t − 1 ]
那么对于任意的正数 t t t 和 v v v ,有
P ( max i = 1 , … , n S i > t and V n 2 ⩽ ν ) ⩽ exp ( − t 2 2 ( ν + K t / 3 ) ) P\left(\max _{i=1, \ldots, n} S_i>t \text { and } V_n^2 \leqslant \nu\right) \leqslant \exp \left(-\frac{t^2}{2(\nu+K t / 3)}\right) P ( i = 1 , … , n max S i > t and V n 2 ⩽ ν ) ⩽ exp ( − 2 ( ν + K t /3 ) t 2 )
因此可以得到
P ( max i S i > 2 ν τ + 2 3 K τ and V n 2 ⩽ ν ) ⩽ e − τ P\left(\max _i S_i>\sqrt{2 \nu \tau}+\frac{2}{3} K \tau \text { and } V_n^2 \leqslant \nu\right) \leqslant e^{-\tau} P ( i max S i > 2 ντ + 3 2 K τ and V n 2 ⩽ ν ) ⩽ e − τ
分析内层循环的随机梯度下降在强凸函数下的收敛性质,有以下引理 :
引理 7.2 假设随机梯度上界为 l l l ,目标函数 f ( ⋅ ) f(\cdot) f ( ⋅ ) 为 λ \lambda λ -强凸。运行 T T T 轮的随机梯度下降更新
w t + 1 = Π W ( w t − η g t ) \boldsymbol{w}_{t+1}=\Pi_{\mathcal{W}}\left(\boldsymbol{w}_t-\eta \mathbf{g}_t\right) w t + 1 = Π W ( w t − η g t )
其中 g t \mathbf{g}_t g t 是函数 f ( ⋅ ) f(\cdot) f ( ⋅ ) 在 w t \boldsymbol{w}_t w t 处的随机梯度,以至少 1 − δ 1-\delta 1 − δ 的概率有
∑ t = 1 T f ( w t ) − T f ( w ∗ ) ⩽ η T l 2 2 + ∥ w 1 − w ∗ ∥ 2 2 η + 4 l 2 λ ( 1 + 8 3 log m δ ) \sum_{t=1}^T f\left(\boldsymbol{w}_t\right)-T f\left(\boldsymbol{w}^*\right) \leqslant \frac{\eta T l^2}{2}+\frac{\left\|\boldsymbol{w}_1-\boldsymbol{w}^*\right\|^2}{2 \eta}+\frac{4 l^2}{\lambda}\left(1+\frac{8}{3} \log \frac{m}{\delta}\right) t = 1 ∑ T f ( w t ) − T f ( w ∗ ) ⩽ 2 η T l 2 + 2 η ∥ w 1 − w ∗ ∥ 2 + λ 4 l 2 ( 1 + 3 8 log δ m )
其中 m = ⌈ 2 log 2 T ⌉ m=\lceil2\log_2T\rceil m = ⌈ 2 log 2 T ⌉
证明 由于 f ( ⋅ ) f(\cdot) f ( ⋅ ) 是强凸的,因此
f ( w t ) − f ( w ∗ ) ⩽ ⟨ ∇ f ( w t ) , w t − w ∗ ⟩ − λ 2 ∥ w t − w ∗ ∥ 2 = ⟨ g t , w t − w ∗ ⟩ + ⟨ ∇ f ( w t ) − g t , w t − w ∗ ⟩ − λ 2 ∥ w t − w ∗ ∥ 2 \begin{aligned}
f\left(\boldsymbol{w}_t\right)-f\left(\boldsymbol{w}^*\right) & \leqslant\left\langle\nabla f\left(\boldsymbol{w}_t\right), \boldsymbol{w}_t-\boldsymbol{w}^*\right\rangle-\frac{\lambda}{2}\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\|^2 \\
& =\left\langle\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}^*\right\rangle+\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}^*\right\rangle-\frac{\lambda}{2}\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\|^2
\end{aligned} f ( w t ) − f ( w ∗ ) ⩽ ⟨ ∇ f ( w t ) , w t − w ∗ ⟩ − 2 λ ∥ w t − w ∗ ∥ 2 = ⟨ g t , w t − w ∗ ⟩ + ⟨ ∇ f ( w t ) − g t , w t − w ∗ ⟩ − 2 λ ∥ w t − w ∗ ∥ 2
对其从 t = 1 t=1 t = 1 到 T T T 进行求和,有
∑ t = 1 T f ( w t ) − T f ( w ∗ ) ⩽ η T l 2 2 + ∥ w 1 − w ∗ ∥ 2 2 η + ∑ t = 1 T ⟨ ∇ f ( w t ) − g t , w t − w ∗ ⟩ − λ 2 ∑ t = 1 T ∥ w t − w ∗ ∥ 2 \begin{aligned}
\sum_{t=1}^T f\left(\boldsymbol{w}_t\right)- & T f\left(\boldsymbol{w}^*\right) \leqslant \frac{\eta T l^2}{2}+\frac{\left\|\boldsymbol{w}_1-\boldsymbol{w}^*\right\|^2}{2 \eta} \\
& +\sum_{t=1}^T\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}^*\right\rangle-\frac{\lambda}{2} \sum_{t=1}^T\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\|^2
\end{aligned} t = 1 ∑ T f ( w t ) − T f ( w ∗ ) ⩽ 2 η T l 2 + 2 η ∥ w 1 − w ∗ ∥ 2 + t = 1 ∑ T ⟨ ∇ f ( w t ) − g t , w t − w ∗ ⟩ − 2 λ t = 1 ∑ T ∥ w t − w ∗ ∥ 2
定义鞅差序列
δ t = ⟨ ∇ f ( w t ) − g t , w t − w ∗ ⟩ \delta_t=\left\langle\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t, \boldsymbol{w}_t-\boldsymbol{w}^*\right\rangle δ t = ⟨ ∇ f ( w t ) − g t , w t − w ∗ ⟩
为了得到 ∑ t δ t \sum_t\delta_t ∑ t δ t 的上界,将利用剥离技术 (peeling technique) 和针对鞅的 Bernstein 不等式。首先,注意到上面的鞅差序列是有界的 :
∣ δ t ∣ ⩽ ∥ ∇ f ( w t ) − g t ∥ ∥ w t − w ∗ ∥ ⩽ 2 l 2 l λ = 4 l 2 λ 定义 A T = ∑ t = 1 T ∥ w t − w ∗ ∥ 2 ⩽ 4 l 2 T λ 2 \begin{aligned}
\left|\delta_t\right| &\leqslant\left\|\nabla f\left(\boldsymbol{w}_t\right)-\mathbf{g}_t\right\|\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\| \leqslant 2 l \frac{2 l}{\lambda}=\frac{4 l^2}{\lambda}\\
\text{定义}&\quad A_T=\sum_{t=1}^T\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\|^2 \leqslant \frac{4 l^2 T}{\lambda^2}
\end{aligned} ∣ δ t ∣ 定义 ⩽ ∥ ∇ f ( w t ) − g t ∥ ∥ w t − w ∗ ∥ ⩽ 2 l λ 2 l = λ 4 l 2 A T = t = 1 ∑ T ∥ w t − w ∗ ∥ 2 ⩽ λ 2 4 l 2 T
对于条件方差,下面的不等式成立 :
V T 2 = ∑ t = 1 T E t − 1 [ δ t 2 ] ⩽ 4 l 2 ∑ t = 1 T ∥ w t − w ∗ ∥ 2 = 4 l 2 A T V_T^2=\sum_{t=1}^T \mathbb{E}_{t-1}\left[\delta_t^2\right] \leqslant 4 l^2 \sum_{t=1}^T\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\|^2=4 l^2 A_T V T 2 = t = 1 ∑ T E t − 1 [ δ t 2 ] ⩽ 4 l 2 t = 1 ∑ T ∥ w t − w ∗ ∥ 2 = 4 l 2 A T
当 A T ⩽ 4 l 2 λ 2 T A_T \leqslant \frac{4 l^2}{\lambda^2 T} A T ⩽ λ 2 T 4 l 2 时
∑ t = 1 T δ t ⩽ 2 l ∑ t = 1 T ∥ w t − w ∗ ∥ ⩽ 2 l T ∑ t = 1 T ∥ w t − w ∗ ∥ 2 ⩽ 4 l 2 λ \sum_{t=1}^T \delta_t \leqslant 2 l \sum_{t=1}^T\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\| \leqslant 2 l \sqrt{T} \sqrt{\sum_{t=1}^T\left\|\boldsymbol{w}_t-\boldsymbol{w}^*\right\|^2} \leqslant \frac{4 l^2}{\lambda} t = 1 ∑ T δ t ⩽ 2 l t = 1 ∑ T ∥ w t − w ∗ ∥ ⩽ 2 l T t = 1 ∑ T ∥ w t − w ∗ ∥ 2 ⩽ λ 4 l 2
当 A T ∈ ( 4 l 2 λ 2 T , 4 l 2 T λ 2 ] A_T \in\left(\frac{4 l^2}{\lambda^2 T}, \frac{4 l^2 T}{\lambda^2}\right] A T ∈ ( λ 2 T 4 l 2 , λ 2 4 l 2 T ] 时,分解成 m = ⌈ 2 log 2 T ⌉ m=\lceil2\log_2T\rceil m = ⌈ 2 log 2 T ⌉ 种可能,即
A T ∈ ( 2 i − 1 4 l 2 λ 2 T , 2 i 4 l 2 λ 2 T ] , i = 1 , … , ⌈ 2 log 2 T ⌉ A_T \in\left(2^{i-1} \frac{4 l^2}{\lambda^2 T}, 2^i \frac{4 l^2}{\lambda^2 T}\right], i=1, \ldots,\left\lceil 2 \log _2 T\right\rceil A T ∈ ( 2 i − 1 λ 2 T 4 l 2 , 2 i λ 2 T 4 l 2 ] , i = 1 , … , ⌈ 2 log 2 T ⌉
综合上面两种情况,通过一系列变换可以证明
P ( ∑ t = 1 T δ t ⩾ 2 4 l 2 A T τ + 2 3 4 l 2 λ τ + 4 l 2 λ ) = P ( ∑ t = 1 T δ t ⩾ 2 4 l 2 A T τ + 2 3 4 l 2 λ τ + 4 l 2 λ , A T ⩽ 4 l 2 λ 2 T ) + P ( ∑ t = 1 T δ t ⩾ 2 4 l 2 A T τ + 2 3 4 l 2 λ τ + 4 l 2 λ , 4 l 2 λ 2 T < A T ⩽ 4 l 2 T λ 2 ) = P ( ∑ t = 1 T δ t ⩾ 2 4 l 2 A T τ + 2 3 4 l 2 λ τ + 4 l 2 λ , V T 2 ⩽ 4 l 2 A T , 4 l 2 λ 2 T < A T ⩽ 4 l 2 T λ 2 ) (利用上面的分解) ⩽ ∑ i = 1 m P ( ∑ t = 1 T δ t ⩾ 2 4 l 2 A T τ + 2 3 4 l 2 λ τ + 4 l 2 λ , V T 2 ⩽ 4 l 2 A T , 4 l 2 λ 2 T 2 i − 1 < A T ⩽ 4 l 2 λ 2 T 2 i ) (利用 A T 的上下界来化简不等式) ⩽ ∑ i = 1 m P ( ∑ t = 1 T δ t ⩾ 2 16 l 4 2 i λ 2 T τ + 2 3 4 l 2 λ τ , V T 2 ⩽ 16 l 4 2 i λ 2 T ] (利用定理 7.6) ⩽ m e − τ \begin{aligned}
& P\left(\sum_{t=1}^T \delta_t \geqslant 2 \sqrt{4 l^2 A_T \tau}+\frac{2}{3} \frac{4 l^2}{\lambda} \tau+\frac{4 l^2}{\lambda}\right) \\
=& P\left(\sum_{t=1}^T \delta_t \geqslant 2 \sqrt{4 l^2 A_T \tau}+\frac{2}{3} \frac{4 l^2}{\lambda} \tau+\frac{4 l^2}{\lambda}, A_T \leqslant \frac{4 l^2}{\lambda^2 T}\right) \\
+&P\left(\sum_{t=1}^T \delta_t \geqslant 2 \sqrt{4 l^2 A_T \tau}+\frac{2}{3} \frac{4 l^2}{\lambda} \tau+\frac{4 l^2}{\lambda}, \frac{4 l^2}{\lambda^2 T}<A_T \leqslant \frac{4 l^2 T}{\lambda^2}\right)\\
=& P\left(\sum_{t=1}^T \delta_t \geqslant 2 \sqrt{4 l^2 A_T \tau}+\frac{2}{3} \frac{4 l^2}{\lambda} \tau+\frac{4 l^2}{\lambda}, V_T^2 \leqslant 4 l^2 A_T, \frac{4 l^2}{\lambda^2 T}<A_T \leqslant \frac{4 l^2 T}{\lambda^2}\right) \\
&\qquad\text{(利用上面的分解)}\\
\leqslant& \sum_{i=1}^m P\left(\sum_{t=1}^T \delta_t \geqslant 2 \sqrt{4 l^2 A_T \tau}+\frac{2}{3} \frac{4 l^2}{\lambda} \tau+\frac{4 l^2}{\lambda}, \right. \\
&\qquad \left.V_T^2 \leqslant 4 l^2 A_T,\frac{4 l^2}{\lambda^2 T} 2^{i-1}<A_T \leqslant \frac{4 l^2}{\lambda^2 T} 2^i\right) \\
&\qquad\text{(利用 } A_T \text{ 的上下界来化简不等式)}\\
\leqslant & \sum_{i=1}^m P\left(\sum_{t=1}^T \delta_t \geqslant \sqrt{2 \frac{16 l^4 2^i}{\lambda^2 T} \tau}+\frac{2}{3} \frac{4 l^2}{\lambda} \tau, V_T^2 \leqslant \frac{16 l^4 2^i}{\lambda^2 T}\right] \\
&\qquad\text{(利用定理 7.6)}\\
\leqslant & m e^{-\tau}
\end{aligned} = + = ⩽ ⩽ ⩽ P ( t = 1 ∑ T δ t ⩾ 2 4 l 2 A T τ + 3 2 λ 4 l 2 τ + λ 4 l 2 ) P ( t = 1 ∑ T δ t ⩾ 2 4 l 2 A T τ + 3 2 λ 4 l 2 τ + λ 4 l 2 , A T ⩽ λ 2 T 4 l 2 ) P ( t = 1 ∑ T δ t ⩾ 2 4 l 2 A T τ + 3 2 λ 4 l 2 τ + λ 4 l 2 , λ 2 T 4 l 2 < A T ⩽ λ 2 4 l 2 T ) P ( t = 1 ∑ T δ t ⩾ 2 4 l 2 A T τ + 3 2 λ 4 l 2 τ + λ 4 l 2 , V T 2 ⩽ 4 l 2 A T , λ 2 T 4 l 2 < A T ⩽ λ 2 4 l 2 T ) ( 利用上面的分解 ) i = 1 ∑ m P ( t = 1 ∑ T δ t ⩾ 2 4 l 2 A T τ + 3 2 λ 4 l 2 τ + λ 4 l 2 , V T 2 ⩽ 4 l 2 A T , λ 2 T 4 l 2 2 i − 1 < A T ⩽ λ 2 T 4 l 2 2 i ) ( 利用 A T 的上下界来化简不等式 ) i = 1 ∑ m P ( t = 1 ∑ T δ t ⩾ 2 λ 2 T 16 l 4 2 i τ + 3 2 λ 4 l 2 τ , V T 2 ⩽ λ 2 T 16 l 4 2 i ] ( 利用定理 7.6) m e − τ
然后令 τ = log m δ = log ⌈ 2 log 2 T ⌉ δ \tau=\log\frac{m}{\delta}=\log\frac{\lceil2\log_2T\rceil}{\delta} τ = log δ m = log δ ⌈ 2 l o g 2 T ⌉ 可得,以至少 1 − δ 1-\delta 1 − δ 的概率有
∑ t = 1 T δ t ⩽ 2 4 l 2 A T log m δ + 8 l 2 3 λ log m δ + 4 l 2 λ \sum_{t=1}^T \delta_t \leqslant 2 \sqrt{4 l^2 A_T \log \frac{m}{\delta}}+\frac{8 l^2}{3 \lambda} \log \frac{m}{\delta}+\frac{4 l^2}{\lambda} t = 1 ∑ T δ t ⩽ 2 4 l 2 A T log δ m + 3 λ 8 l 2 log δ m + λ 4 l 2
将其代入上面的累加式,以至少 1 − δ 1-\delta 1 − δ 的概率有
∑ t = 1 T f ( w t ) − T f ( w ∗ ) ⩽ η T l 2 2 + ∥ w 1 − w ∗ ∥ 2 2 η + 2 4 l 2 A T log m δ + 8 l 2 3 λ log m δ + 4 l 2 λ − λ 2 A T ⩽ η T l 2 2 + ∥ w 1 − w ∗ ∥ 2 2 η + 32 l 2 3 λ log m δ + 4 l 2 λ \begin{aligned}
& \sum_{t=1}^T f\left(\boldsymbol{w}_t\right)-T f\left(\boldsymbol{w}^*\right) \\
& \leqslant \frac{\eta T l^2}{2}+\frac{\left\|\boldsymbol{w}_1-\boldsymbol{w}^*\right\|^2}{2 \eta}+2 \sqrt{4 l^2 A_T \log \frac{m}{\delta}}+\frac{8 l^2}{3 \lambda} \log \frac{m}{\delta}+\frac{4 l^2}{\lambda}-\frac{\lambda}{2} A_T \\
& \leqslant \frac{\eta T l^2}{2}+\frac{\left\|\boldsymbol{w}_1-\boldsymbol{w}^*\right\|^2}{2 \eta}+\frac{32 l^2}{3 \lambda} \log \frac{m}{\delta}+\frac{4 l^2}{\lambda}
\end{aligned} t = 1 ∑ T f ( w t ) − T f ( w ∗ ) ⩽ 2 η T l 2 + 2 η ∥ w 1 − w ∗ ∥ 2 + 2 4 l 2 A T log δ m + 3 λ 8 l 2 log δ m + λ 4 l 2 − 2 λ A T ⩽ 2 η T l 2 + 2 η ∥ w 1 − w ∗ ∥ 2 + 3 λ 32 l 2 log δ m + λ 4 l 2
引理得证。
利用引理 7.2 分析 Epoch-GD 外层循环的性质,得到如下引理 :
引理 7.3 令 δ ∈ ( 0 , 1 ) \delta\in(0,1) δ ∈ ( 0 , 1 ) 表示失败的概率,定义
δ ~ = δ k † k † = ⌊ log 2 ( 2 T α + 1 ) ⌋ \begin{aligned}
\tilde{\delta} & =\frac{\delta}{k^{\dagger}} \\
k^{\dagger} & =\left\lfloor\log _2\left(\frac{2 T}{\alpha}+1\right)\right\rfloor
\end{aligned} δ ~ k † = k † δ = ⌊ log 2 ( α 2 T + 1 ) ⌋
其中 α \alpha α 为满足以下条件的最小偶数
α ⩾ 24 + 128 3 log ⌊ log 2 ( T 12 + 1 ) ⌋ ⌈ 2 log 2 T ⌉ δ \alpha \geqslant 24+\frac{128}{3} \log \frac{\left\lfloor\log _2\left(\frac{T}{12}+1\right)\right\rfloor\left\lceil 2 \log _2 T\right\rceil}{\delta} α ⩾ 24 + 3 128 log δ ⌊ log 2 ( 12 T + 1 ) ⌋ ⌈ 2 log 2 T ⌉
将 Epoch-GD 的参数设置为 T 1 = α / 2 T_1=\alpha/2 T 1 = α /2 和 η 1 = 1 / λ \eta_1=1/\lambda η 1 = 1/ λ ,对于任意的 k k k ,以至少 ( 1 − δ ~ ) k − 1 (1-\tilde{\delta})^{k-1} ( 1 − δ ~ ) k − 1 的概率有
Δ k = f ( w 1 k ) − f ( w ∗ ) ⩽ V k = l 2 λ 2 k − 2 \Delta_k=f\left(\boldsymbol{w}_1^k\right)-f\left(\boldsymbol{w}^*\right) \leqslant V_k=\frac{l^2}{\lambda 2^{k-2}} Δ k = f ( w 1 k ) − f ( w ∗ ) ⩽ V k = λ 2 k − 2 l 2
证明 根据 α \alpha α 的满足条件可知,α ⩾ 24 \alpha\geqslant24 α ⩾ 24 ,因此
k † ⩽ ⌊ log 2 ( T 12 + 1 ) ⌋ δ ~ = δ k † ⩾ δ ⌊ log 2 ( T 12 + 1 ) ⌋ \begin{aligned}
k^{\dagger} & \leqslant\left\lfloor\log _2\left(\frac{T}{12}+1\right)\right\rfloor \\
\tilde{\delta} & =\frac{\delta}{k^{\dagger}} \geqslant \frac{\delta}{\left\lfloor\log _2\left(\frac{T}{12}+1\right)\right\rfloor}
\end{aligned} k † δ ~ ⩽ ⌊ log 2 ( 12 T + 1 ) ⌋ = k † δ ⩾ ⌊ log 2 ( 12 T + 1 ) ⌋ δ
由上式解出 δ \delta δ 代回,可得
α ⩾ 24 + 128 3 log ⌈ 2 log 2 T ⌉ δ ~ \alpha \geqslant 24+\frac{128}{3} \log \frac{\left\lceil 2 \log _2 T\right\rceil}{\tilde{\delta}} α ⩾ 24 + 3 128 log δ ~ ⌈ 2 log 2 T ⌉
对引理 7.1 中的部分推论进行改写
T k = 8 l 2 λ V k = 2 k + 1 ⇒ T k = α l 2 λ V k = α 2 k − 2 T_k=\frac{8 l^2}{\lambda V_k}=2^{k+1}\Rightarrow T_k=\frac{\alpha l^2}{\lambda V_k}=\alpha2^{k-2} T k = λ V k 8 l 2 = 2 k + 1 ⇒ T k = λ V k α l 2 = α 2 k − 2
继续使用数学归纳法
k = 1 k=1 k = 1 时,根据定理 7.2,命题显然成立
假设对于正整数 k ⩾ 1 k\geqslant1 k ⩾ 1 ,Δ k ⩽ V k \Delta_k\leqslant V_k Δ k ⩽ V k 以至少 ( 1 − δ ~ ) k − 1 (1-\tilde{\delta})^{k-1} ( 1 − δ ~ ) k − 1 的概率成立
考虑 k + 1 k+1 k + 1 时,结合定理 7.2,以至少 ( 1 − δ ~ ) ⋅ ( 1 − δ ~ ) k − 1 = ( 1 − δ ~ ) k (1-\tilde{\delta})\cdot(1-\tilde{\delta})^{k-1}=(1-\tilde{\delta})^{k} ( 1 − δ ~ ) ⋅ ( 1 − δ ~ ) k − 1 = ( 1 − δ ~ ) k 的概率有
Δ k + 1 = f ( w 1 k + 1 ) − f ( w ∗ ) ⩽ 1 T k ∑ t = 1 T k f ( w t k ) − f ( w ∗ ) ⩽ η k l 2 2 + ∥ w 1 k − w ∗ ∥ 2 2 η k T k + 1 T k ( 1 + 8 3 log m k δ ~ ) 4 l 2 λ ⩽ η k l 2 2 + Δ k η k T k λ + 1 T k ( 1 + 8 3 log m k δ ~ ) 4 l 2 λ ⩽ V k 4 + 2 V k α + λ V k α l 2 ( 1 + 8 3 log m k δ ~ ) 4 l 2 λ = V k 4 + V k α ( 6 + 32 3 log m k δ ~ ) \begin{aligned}
\Delta_{k+1} & =f\left(\boldsymbol{w}_1^{k+1}\right)-f\left(\boldsymbol{w}^*\right) \\
& \leqslant \frac{1}{T_k} \sum_{t=1}^{T_k} f\left(\boldsymbol{w}_t^k\right)-f\left(\boldsymbol{w}^*\right) \\
& \leqslant \frac{\eta_k l^2}{2}+\frac{\left\|\boldsymbol{w}_1^k-\boldsymbol{w}^*\right\|^2}{2 \eta_k T_k}+\frac{1}{T_k}\left(1+\frac{8}{3} \log \frac{m_k}{\tilde{\delta}}\right) \frac{4 l^2}{\lambda} \\
& \leqslant \frac{\eta_k l^2}{2}+\frac{\Delta_k}{\eta_k T_k \lambda}+\frac{1}{T_k}\left(1+\frac{8}{3} \log \frac{m_k}{\tilde{\delta}}\right) \frac{4 l^2}{\lambda} \\
& \leqslant \frac{V_k}{4}+\frac{2 V_k}{\alpha}+\frac{\lambda V_k}{\alpha l^2}\left(1+\frac{8}{3} \log \frac{m_k}{\tilde{\delta}}\right) \frac{4 l^2}{\lambda} \\
& =\frac{V_k}{4}+\frac{V_k}{\alpha}\left(6+\frac{32}{3} \log \frac{m_k}{\tilde{\delta}}\right)
\end{aligned} Δ k + 1 = f ( w 1 k + 1 ) − f ( w ∗ ) ⩽ T k 1 t = 1 ∑ T k f ( w t k ) − f ( w ∗ ) ⩽ 2 η k l 2 + 2 η k T k ∥ ∥ w 1 k − w ∗ ∥ ∥ 2 + T k 1 ( 1 + 3 8 log δ ~ m k ) λ 4 l 2 ⩽ 2 η k l 2 + η k T k λ Δ k + T k 1 ( 1 + 3 8 log δ ~ m k ) λ 4 l 2 ⩽ 4 V k + α 2 V k + α l 2 λ V k ( 1 + 3 8 log δ ~ m k ) λ 4 l 2 = 4 V k + α V k ( 6 + 3 32 log δ ~ m k )
其中 m k = ⌈ 2 log 2 T k ⌉ m_k=\lceil2\log_2T_k\rceil m k = ⌈ 2 log 2 T k ⌉ ,结合 α \alpha α 的限制,以至少 ( 1 − δ ~ ) k (1-\tilde{\delta})^{k} ( 1 − δ ~ ) k 的概率有
Δ k + 1 ⩽ V k 2 = V k + 1 \Delta_{k+1}\leqslant\frac{V_k}{2}=V_{k+1} Δ k + 1 ⩽ 2 V k = V k + 1
k + 1 k+1 k + 1 的时候递归成立,数学归纳法成立,命题得证。
定理 7.7 Epoch-GD 大概率情况下的收敛率 若目标函数 f ( ⋅ ) f(\cdot) f ( ⋅ ) 为 λ \lambda λ -强凸函数,Epoch-GD 以大概率取得 O ( log log T λ T ) O(\frac{\log\log T}{\lambda T}) O ( λ T l o g l o g T ) 的收敛率
证明 Epoch-GD 外层循环的轮数,是由满足 ∑ i = 1 k T i ⩽ T \sum_{i=1}^kT_i\leqslant T ∑ i = 1 k T i ⩽ T 的最大 k k k 决定的,由于
∑ i = 1 k T i = ∑ i = 1 k α 2 i − 2 = α 2 ( 2 k − 1 ) \sum_{i=1}^k T_i=\sum_{i=1}^k \alpha 2^{i-2}=\frac{\alpha}{2}\left(2^k-1\right) i = 1 ∑ k T i = i = 1 ∑ k α 2 i − 2 = 2 α ( 2 k − 1 )
因此,最后一轮迭代的轮数 k † k^{\dagger} k † 与引理 7.3 中的定义相吻合,算法最终输出是 w 1 k † + 1 \boldsymbol{w}^{k^{\dagger}+1}_1 w 1 k † + 1 。根据引理 7.3,以至少 ( 1 − δ ~ ) k † (1-\tilde{\delta})^{k^{\dagger}} ( 1 − δ ~ ) k † 的概率有
f ( w 1 k † + 1 ) − f ( w ∗ ) = Δ k † + 1 ⩽ V k † + 1 = l 2 2 k † − 1 λ ⩽ 2 α l 2 λ T \begin{aligned}
f\left(\boldsymbol{w}_1^{k^{\dagger}+1}\right)-f\left(\boldsymbol{w}^*\right) & =\Delta_{k^{\dagger}+1} \\
& \leqslant V_{k^{\dagger}+1}=\frac{l^2}{2^{k^{\dagger}-1} \lambda} \leqslant \frac{2 \alpha l^2}{\lambda T}
\end{aligned} f ( w 1 k † + 1 ) − f ( w ∗ ) = Δ k † + 1 ⩽ V k † + 1 = 2 k † − 1 λ l 2 ⩽ λ T 2 α l 2
然后,证明概率 ( 1 − δ ~ ) k † > 1 − δ (1-\tilde{\delta})^{k^{\dagger}}>1-\delta ( 1 − δ ~ ) k † > 1 − δ ,由于函数 ( 1 − 1 x ) x (1-\frac{1}{x})^x ( 1 − x 1 ) x 在 x > 1 x>1 x > 1 时是增函数,因此
( 1 − δ ~ ) k † = ( 1 − δ k † ) k † = ( ( 1 − 1 k † / δ ) k † / δ ) δ ⩾ ( ( 1 − 1 1 / δ ) 1 / δ ) δ = 1 − δ \begin{aligned}
(1-\tilde{\delta})^{k^{\dagger}}=\left(1-\frac{\delta}{k^{\dagger}}\right)^{k^{\dagger}} & =\left(\left(1-\frac{1}{k^{\dagger} / \delta}\right)^{k^{\dagger} / \delta}\right)^\delta \\
& \geqslant\left(\left(1-\frac{1}{1 / \delta}\right)^{1 / \delta}\right)^\delta=1-\delta
\end{aligned} ( 1 − δ ~ ) k † = ( 1 − k † δ ) k † = ( ( 1 − k † / δ 1 ) k † / δ ) δ ⩾ ( ( 1 − 1/ δ 1 ) 1/ δ ) δ = 1 − δ
由上面两式可知,以至少 1 − δ 1-\delta 1 − δ 的概率有
f ( w 1 k † + 1 ) − f ( w ∗ ) ⩽ 2 α l 2 λ T = O ( log log T λ T ) f\left(\boldsymbol{w}_1^{k^{\dagger}+1}\right)-f\left(\boldsymbol{w}^*\right) \leqslant \frac{2 \alpha l^2}{\lambda T}=O\left(\frac{\log \log T}{\lambda T}\right) f ( w 1 k † + 1 ) − f ( w ∗ ) ⩽ λ T 2 α l 2 = O ( λ T log log T )
定理得证。
7.4 实例分析
7.4.1 支持向量机
首先引入如何使用确定优化方法来求解支持向量机 (Supporting Vector Machine, SVM) : 令 ( x 1 , y 1 ) , … , ( x m , y m ) (\boldsymbol{x}_1,y_1),\ldots,(\boldsymbol{x}_m,y_m) ( x 1 , y 1 ) , … , ( x m , y m ) 为 m m m 个训练样本,其中 x i ∈ R d , y i ∈ { − 1 , + 1 } \boldsymbol{x}_i\in\mathbb{R}^d,y_i\in\{-1,+1\} x i ∈ R d , y i ∈ { − 1 , + 1 } ,支持向量机的优化问题为 :
min w f ( w ) = ∑ i = 1 m max ( 0 , 1 − y i w T x i ) s.t. ∥ w ∥ ⩽ Λ \begin{aligned}
& \min _{\boldsymbol{w}} f(\boldsymbol{w})=\sum_{i=1}^m \max \left(0,1-y_i \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i\right) \\
& \text { s.t. }\|\boldsymbol{w}\| \leqslant \Lambda
\end{aligned} w min f ( w ) = i = 1 ∑ m max ( 0 , 1 − y i w T x i ) s.t. ∥ w ∥ ⩽ Λ
由于 hinge 损失并不光滑,需要对梯度进行如下的计算替换,称之为次梯度 (sub-gradient) :
∇ f ( w ) = ∑ i = 1 m g i , g i = { − y i x i , 1 − y i w T x i ⩾ 0 0 , 1 − y i w T x i < 0 \begin{aligned}
\nabla f(\boldsymbol{w}) & =\sum_{i=1}^m \mathbf{g}_i, \\
\mathbf{g}_i & = \begin{cases}-y_i \boldsymbol{x}_i, & 1-y_i \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i \geqslant 0 \\
0, & 1-y_i \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i<0 \end{cases}
\end{aligned} ∇ f ( w ) g i = i = 1 ∑ m g i , = { − y i x i , 0 , 1 − y i w T x i ⩾ 0 1 − y i w T x i < 0
由于目标函数是凸函数,可以将 7.2.1 节中的梯度下降算法来进行求解。具体如下 :
根据定理 7.1 的分析,可以得到如下收敛率。
定理 7.8 优化支持向量机的收敛率 梯度下降求解支持向量机的收敛率为 O ( 1 T ) O(\frac{1}{\sqrt{T}}) O ( T 1 )
证明 假设 ∥ x i ∥ ⩽ r , i ∈ [ m ] \lVert\boldsymbol{x}_i\rVert\leqslant r,i\in[m] ∥ x i ∥ ⩽ r , i ∈ [ m ] ,根据定理 7.1 步长的设置依赖于梯度的上界,梯度上界为
∥ ∇ f ( w ) ∥ ⩽ ∑ i = 1 m ∥ y i x i ∥ ⩽ m r \|\nabla f(\boldsymbol{w})\| \leqslant \sum_{i=1}^m\left\|y_i \boldsymbol{x}_i\right\| \leqslant m r ∥∇ f ( w ) ∥ ⩽ i = 1 ∑ m ∥ y i x i ∥ ⩽ m r
可行域的直径为 Γ = 2 Λ \Gamma=2\Lambda Γ = 2Λ ,根据定理 7.1,将步长设置为 η = 2 Λ / ( m r T ) \eta=2\Lambda/(mr\sqrt{T}) η = 2Λ/ ( m r T ) 有
f ( w ‾ T ) − min ∥ w ∥ ⩽ Λ f ( w ) ⩽ 2 m r Λ T = O ( 1 T ) f\left(\overline{\boldsymbol{w}}_T\right)-\min _{\|\boldsymbol{w}\| \leqslant \Lambda} f(\boldsymbol{w}) \leqslant \frac{2 m r \Lambda}{\sqrt{T}}=O\left(\frac{1}{\sqrt{T}}\right) f ( w T ) − ∥ w ∥ ⩽ Λ min f ( w ) ⩽ T 2 m r Λ = O ( T 1 )
定理得证。
7.4.2 对率回归
给定训练数据集 D = { ( x 1 , y 1 ) , … , ( x m , y m ) } D=\{(\boldsymbol{x}_1,y_1),\ldots,(\boldsymbol{x}_m,y_m)\} D = {( x 1 , y 1 ) , … , ( x m , y m )} ,对率回归的优化问题如下 :
min w f ( w ) = 1 m ∑ i = 1 m ln ( 1 + exp ( − y i w T x i ) ) s.t. ∥ w ∥ ⩽ Λ \begin{aligned}
\min _{\boldsymbol{w}} f(\boldsymbol{w})&=\frac{1}{m} \sum_{i=1}^m \ln \left(1+\exp \left(-y_i \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_i\right)\right) \\
\text { s.t. }&\quad\|\boldsymbol{w}\| \leqslant \Lambda
\end{aligned} w min f ( w ) s.t. = m 1 i = 1 ∑ m ln ( 1 + exp ( − y i w T x i ) ) ∥ w ∥ ⩽ Λ
为了计算随机梯度,将在每一轮均匀随机选择 1 个样本作为输入,将 t t t 轮迭代选取的样本记为 ( x t , y t ) (\boldsymbol{x}_t,y_t) ( x t , y t ) ,则 f ( ⋅ ) f(\cdot) f ( ⋅ ) 在当前解 w t \boldsymbol{w}_t w t 处的随机梯度可以计算为
g t = y t exp ( − y t w t T x t ) 1 + exp ( − y t w i T x t ) x t \mathbf{g}_t=\frac{y_t \exp \left(-y_t \boldsymbol{w}_t^{\mathrm{T}} \boldsymbol{x}_t\right)}{1+\exp \left(-y_t \boldsymbol{w}_i^{\mathrm{T}} \boldsymbol{x}_t\right)} \boldsymbol{x}_t g t = 1 + exp ( − y t w i T x t ) y t exp ( − y t w t T x t ) x t
根据定理 7.4 的分析,可以得到如下收敛率
定理 7.9 优化对率回归的收敛率 随机梯度下降求解对率回归的收敛率为 O ( 1 T ) O(\frac{1}{\sqrt{T}}) O ( T 1 )
证明 假设 ∥ x i ∥ ⩽ r , i ∈ [ m ] \lVert\boldsymbol{x}_i\rVert\leqslant r,i\in[m] ∥ x i ∥ ⩽ r , i ∈ [ m ] ,首先计算随机梯度的上界
∥ exp ( − y t w t T x t ) 1 + exp ( − y t w t T x t ) y t x t ∥ ⩽ ∥ x t ∥ ⩽ r \left\|\frac{\exp \left(-y_t \boldsymbol{w}_t^{\mathrm{T}} \boldsymbol{x}_t\right)}{1+\exp \left(-y_t \boldsymbol{w}_t^{\mathrm{T}} \boldsymbol{x}_t\right)} y_t \boldsymbol{x}_t\right\| \leqslant\left\|\boldsymbol{x}_t\right\| \leqslant r ∥ ∥ 1 + exp ( − y t w t T x t ) exp ( − y t w t T x t ) y t x t ∥ ∥ ⩽ ∥ x t ∥ ⩽ r
因为可行域的直径 Γ = 2 Λ \Gamma=2\Lambda Γ = 2Λ ,依据定理 7.4,调整步长为 η = 2 Λ / ( r T ) \eta=2\Lambda/(r\sqrt{T}) η = 2Λ/ ( r T ) ,则以至少 1 − δ 1-\delta 1 − δ 的概率有
f ( w ˉ T ) − min ∥ w ∥ ⩽ Λ f ( w ) ⩽ 2 Λ r T ( 1 + 2 2 log 1 δ ) = O ( 1 T ) f\left(\bar{\boldsymbol{w}}_T\right)-\min _{\|\boldsymbol{w}\| \leqslant \Lambda} f(\boldsymbol{w}) \leqslant \frac{2 \Lambda r}{\sqrt{T}}\left(1+2 \sqrt{2 \log \frac{1}{\delta}}\right)=O\left(\frac{1}{\sqrt{T}}\right) f ( w ˉ T ) − ∥ w ∥ ⩽ Λ min f ( w ) ⩽ T 2Λ r ( 1 + 2 2 log δ 1 ) = O ( T 1 )
定理得证