遗憾界——《机器学习理论导引》第八章学习笔记(下)

91 阅读10分钟

《机器学习理论导引》笔记目录

8.3 赌博机在线学习

多臂赌博机

  • 在多臂赌博机 (Multi-armed bandit) 问题中, 学习器面对 K 个摇臂。在每一轮迭代,学习器需要从 K 个摇臂中选择 1 个摇动并获得对应的奖励。学习器的目的是最大化T 轮迭代的累积收益
  • 此处学习器的遗憾定义为 :
     regret =Tmaxi[K]μit=1Tμit\text { regret }=T \max _{i \in[K]} \mu_i-\sum_{t=1}^T \mu_{i_t}
    其中,μi\mu_i 表示第 ii 个摇臂的奖励均值;iti_t 表示学习器在第 tt 轮选择中选择的摇臂
  • 因观测信息不充分,学习器面临探索 (exploration) 和利用 (exploitation) 之间的折中。
    • 探索 : 为了准确的估计每个摇臂的奖励均值,学习器需要尝试不同的摇臂。
    • 利用 : 为了最小化遗憾,学习器又倾向于选择能得到最大收益的摇臂。
  • 对于随机设定,解决探索和利用折中的典型算法是置信上界法 (Upper Confidence Bound,简称 UCB)。
    • 为每一个摇臂 ii 维持一个置信上界 μi^\hat{\mu_i}; 并以大概率保证均值 μiμi^\mu_i \leqslant \widehat{\mu_i}
    • 算法通过选择具有最大置信上界的摇臂自动在探索和利用之间折中。
  • 每个摇臂的奖励是独立同分布的,利用集中不等式构造置信上界 :

Hoeffding 不等式

  对于 Xi[a,b],i[n],Xˉ=1mi=1nXi,ϵ>0X_i \in[a, b], i \in[n], \bar{X}=\frac{1}{m} \sum_{i=1}^n X_i, \forall \epsilon>0,有

P(XˉE[Xˉ]ϵ)e2nϵ2/(ba)2P(XˉE[Xˉ]ϵ)e2nϵ2/(ba)2\begin{aligned} &P(\bar{X}-\mathbb{E}[\bar{X}] \geqslant \epsilon) \leqslant \mathrm{e}^{-2 n \epsilon^2 /(b-a)^{\wedge} 2} \\ &P(\bar{X}-\mathbb{E}[\bar{X}] \leqslant-\epsilon) \leqslant \mathrm{e}^{-2 n \epsilon^2 /(b-a)^{\wedge} 2}\end{aligned}

 令 X1,,XnX_1, \ldots, X_n 为取值在 [0,1][0,1] 之间的随机变量,对 t>0\forall t>0

P(1ni=1nXiμ+t)exp(2nt2)P(1ni=1nXiμt)exp(2nt2)\begin{aligned} & P\left(\frac{1}{n} \sum_{i=1}^n X_i \geqslant \mu+t\right) \leqslant \exp \left(-2 n t^2\right) \\ & P\left(\frac{1}{n} \sum_{i=1}^n X_i \leqslant \mu-t\right) \leqslant \exp \left(-2 n t^2\right) \end{aligned}
  • 假设第 ii 个摇臂的奖励取值范围为 [0,1][0,1],算法按下了该摇臂 nin_i 次. 将 nin_i 次奖励的样本均值记为 μˉi\bar{\mu}_i. 将置信上界定义为

    μi^=μˉi+2lnαni\widehat{\mu_i}=\bar{\mu}_i+\sqrt{\frac{2 \ln \alpha}{n_i}}

    t=2lnα/ni,n=nit=\sqrt{2 \ln \alpha / n_i}, n=n_i,代入上式 Hoeffding 不等式推导结果,有

    P(μˉiμi2lnαni)α4P\left(\bar{\mu}_i \leqslant \mu_i-\sqrt{\frac{2 \ln \alpha}{n_i}}\right) \leqslant \alpha^{-4}

    移项即有 : P(μiμi^)α4P\left(\mu_i \geqslant \widehat{\mu_i}\right) \leqslant \alpha^{-4},即至少以 1α41-\alpha^{-4} 的概率有 μiμi^\mu_i \leqslant \widehat{\mu_i} 成立。

  • 置信上界 μi^\widehat{\mu_i} 由两部分组成

    • 样本均值 μiˉ\bar{\mu_i},反应学习器当前的知识,对应 “利用”;
    • 区间宽度 2lnαni\sqrt{\frac{2 \ln \alpha}{n_i}},反应知识的不确定性,对应 “探索”;
    • 依据置信上界选择摇臂,自动在探索和利用之间取得平衡。
  • 基于置信上界的随机多臂赌博机算法的整体流程如下

随机多臂赌博机遗憾界

定理8.3 (随机多臂赌博机遗憾界) 假设每一个摇臂的奖励属于区间 [0,1][0,1],并且每一个摇臂的奖励是独立同分布的, 那么置信上界算法满足

Tmaxi[K]μiE[t=1Tμit]=O(KlogT)T \max _{i \in[K]} \mu_i-\mathbb{E}\left[\sum_{t=1}^T \mu_{i_t}\right]=O(K \log T)

证明

  将最优摇臂的索引记为 *,即 =argmaxi[K]μi*=\arg \max _{i \in[K]} \mu_i。令 Δi=μμi\Delta_i=\mu_*-\mu_i,根据遗憾定义,得 :

 regret =Tmaxi[K]μit=1Tμit=Tμt=1Tμit=i(μμi)niT=iΔiniT\begin{aligned} \text { regret }&=T \max _{i \in[K]} \mu_i-\sum_{t=1}^T \mu_{i_t}=T \mu_*-\sum_{t=1}^T \mu_{i_t}\\ &=\sum_{i \neq *}\left(\mu_*-\mu_i\right) n_i^T=\sum_{i \neq *} \Delta_i n_i^T \end{aligned}

  由于 Δi\Delta_i 为常数,所以只需计算第 ii 个摇臂在 TT 轮迭代中被摇动的次数 niTn_i^T

  • 为了更好理解证明思路,先给出如下事实 : 对事件 A, B

    1. 如果由事件 A 成立可以推知事件 B 成立, 则有 I(A)I(B)\mathbb{I}(A) \leqslant \mathbb{I}(B)
    2. I(A1\mathbb{I}\left(A_1\right. or A2A_2 or \cdots or An)I(A1)+I(A2)++I(An)\left.A_n\right) \leqslant \mathbb{I}\left(A_1\right)+\mathbb{I}\left(A_2\right)+\cdots+\mathbb{I}\left(A_n\right)
    3. I(A)I(A,B)+I(A,¬B)\mathbb{I}(\mathrm{A}) \leqslant \mathbb{I}(\mathrm{A}, \mathrm{B})+\mathbb{I}(\mathrm{A}, \neg \mathrm{B})
  • 根据事实 (3),可得 :

    niT=1+t=K+1TI(it=i)1+t=K+1TI(it=i,nit1<)+t=K+1TI(it=i,nit1)\begin{aligned} n_i^T=&1+\sum_{t=K+1}^T \mathbb{I}\left(i_t=i\right) \leqslant 1\\ &+\sum_{t=K+1}^T \mathbb{I}\left(i_t=i, n_i^{t-1}<\ell\right)+\sum_{t=K+1}^T \mathbb{I}\left(i_t=i, n_i^{t-1} \geqslant \ell\right) \end{aligned}
  • 下面分别证明两个不等式


引理 8.1 如下两个不等式成立

t=K+1TI(it=i,nit1<)1t=K+1TI(it=i,nit1)t=1T1p=1t1q=t1(I(μˉ(p)+2lntpμ)+I(μμi+22lntq)+I(μi+2lntqμˉi(q)))\begin{aligned} &\sum_{t=K+1}^T \mathbb{I}\left(i_t=i, n_i^{t-1}<\ell\right) \leqslant \ell-1 \\ &\sum_{t=K+1}^T \mathbb{I}\left(i_t=i, n_i^{t-1} \geqslant \ell\right) \leqslant \sum_{t=1}^{T-1} \sum_{p=1}^{t-1} \sum_{q=\ell}^{t-1}(\mathbb{I}\left(\bar{\mu}_*(p)+\sqrt{\frac{2 \ln t}{p}} \leqslant \mu_*\right)\\ &+\mathbb{I}\left(\mu_* \leqslant \mu_i+2 \sqrt{\frac{2 \ln t}{q}}\right)+\mathbb{I}\left(\mu_i+\sqrt{\frac{2 \ln t}{q}} \leqslant \bar{\mu}_i(q)\right)) \end{aligned}

式(1)证明

  由于 niK=1n_i^K=1,当 nit1n_i^{t-1} \geqslant \ell 时,it=ii_t=i 时, nit=nit1+1n_i^t=n_i^{t-1}+1,因此,当 I(it=i,nit1<)=1\mathbb{I}\left(i_t=i, n_i^{t-1}<\ell\right)=1 时, nitn_i^t 随之增加 1;

  若 nitn_i^t 从1增加到 \ell ,则这 tt 轮里面至多有 1\ell-1 次能使得  (it=i,nit1<)=1\mathbb{~}\left(i_t=i, n_i^{t-1}<\ell\right)=1,其他情况都是使得 I(it=i,nit1<)=0\mathbb{I}\left(i_t=i, n_i^{t-1}<\ell\right)=0,因此有 :

t=K+1TI(it=i,nit1<)1\sum_{t=K+1}^T \mathbb{I}\left(i_t=i, n_i^{t-1}<\ell\right) \leqslant \ell-1

式(2)证明

  根据置信上界算法第 7 步,可知 :

it=iμˉ(nt1)+2ln(t1)nt1μˉi(nit1)+2ln(t1)nit1,nit1i_t=i \Rightarrow \bar{\mu}_*\left(n_*^{t-1}\right)+\sqrt{\frac{2 \ln (t-1)}{n_*^{t-1}}} \leqslant \bar{\mu}_i\left(n_i^{t-1}\right)+\sqrt{\frac{2 \ln (t-1)}{n_i^{t-1}}}, n_i^{t-1} \geqslant \ell

  结合事实 (1) 即若事件 A 成立可以推知事件 B 成立,则有 I(A)I(B)\mathbb{I}(A) \leqslant \mathbb{I}(B)

I(it=i,nit1)I(μˉ(nt1)+2ln(t1)nt1μˉi(nit1)+2ln(t1)nit1,nit1)\mathbb{I}\left(i_t=i, n_i^{t-1} \geqslant \ell\right) \leqslant \mathbb{I}\left(\bar{\mu}_*\left(n_*^{t-1}\right)+\sqrt{\frac{2 \ln (t-1)}{n_*^{t-1}}} \leqslant \bar{\mu}_i\left(n_i^{t-1}\right)+\sqrt{\frac{2 \ln (t-1)}{n_i^{t-1}}}, n_i^{t-1} \geqslant \ell\right)

  进一步结合事实 (1) 与事实 (2):

I(μˉ(nt1)+2ln(t1)nt1μˉi(nit1)+2ln(t1)nit1,nit1)I(min0<p<tμˉ(p)+2ln(t1)pmaxq<tμˉi(q)+2ln(t1)q)p=1t1q=t1I(μˉ(p)+2ln(t1)pμˉi(q)+2ln(t1)q)\begin{aligned} \mathbb{I}&\left(\bar{\mu}_*\left(n_*^{t-1}\right)+\sqrt{\frac{2 \ln (t-1)}{n_*^{t-1}}} \leqslant \bar{\mu}_i\left(n_i^{t-1}\right)+\sqrt{\left.\frac{2 \ln (t-1)}{n_i^{t-1}}, n_i^{t-1} \geqslant \ell\right)}\right. \\ &\leqslant \mathbb{I}\left(\min _{0<p<t} \bar{\mu}_*(p)+\sqrt{\frac{2 \ln (t-1)}{p}} \leqslant \max _{\ell \leqslant q<t} \bar{\mu}_i(q)+\sqrt{\frac{2 \ln (t-1)}{q}}\right) \\ &\leqslant \sum_{p=1}^{t-1} \sum_{q=\ell}^{t-1} \mathbb{I}\left(\bar{\mu}_*(p)+\sqrt{\frac{2 \ln (t-1)}{p}} \leqslant \bar{\mu}_i(q)+\sqrt{\frac{2 \ln (t-1)}{q}}\right) \end{aligned}

  两边同时对 tt 求和,那么有 :

t=K+1TI(it=i,nit1)t=K+1Tp=1t1q=t1I(μˉ(p)+2ln(t1)pμˉi(q)+2ln(t1)q)t=1T1p=1t1q=t1I(μˉ(p)+2lntpμˉi(q)+2lntq)\begin{aligned} \sum_{t=K+1}^T \mathbb{I}&\left(i_t=i, n_i^{t-1} \geqslant \ell\right)\\ &\leqslant \sum_{t=K+1}^T \sum_{p=1}^{t-1} \sum_{q=\ell}^{t-1} \mathbb{I}\left(\bar{\mu}_*(p)+\sqrt{\frac{2 \ln (t-1)}{p}} \leqslant \bar{\mu}_i(q)+\sqrt{\frac{2 \ln (t-1)}{q}}\right) \\ &\leqslant \sum_{t=1}^{T-1} \sum_{p=1}^{t-1} \sum_{q=\ell}^{t-1} \mathbb{I}\left(\bar{\mu}_*(p)+\sqrt{\frac{2 \ln t}{p}} \leqslant \bar{\mu}_i(q)+\sqrt{\frac{2 \ln t}{q}}\right) \end{aligned}

  当μˉ(p)+2lntpμˉi(q)+2lntq\bar{\mu}_*(p)+\sqrt{\frac{2 \ln t}{p}} \leqslant \bar{\mu}_i(q)+\sqrt{\frac{2 \ln t}{q}} 成立时, 下面三式必有一个成立 :

μˉ(p)+2lntpμ;μμi+22lntq;μi+2lntqμˉi(q)\begin{aligned} \bar{\mu}_*(p)+\sqrt{\frac{2 \ln t}{p}} \leqslant \mu_*;\\ \quad \mu_* \leqslant \mu_i+2 \sqrt{\frac{2 \ln t}{q}};\\ \mu_i+\sqrt{\frac{2 \ln t}{q}} \leqslant \bar{\mu}_i(q) \end{aligned}
  • 可根据反证法来证明上面结论成立 :

    若三个不等式均不成立,则有 :

    μˉ(p)+2lntp>μ;  μ>μi+22lntq;  μi+2lntq>μˉi(q)\bar{\mu}_*(p)+\sqrt{\frac{2 \ln t}{p}}>\mu_*; \ \ \mu_*>\mu_i+2 \sqrt{\frac{2 \ln t}{q}};\ \ \mu_i+\sqrt{\frac{2 \ln t}{q}}>\bar{\mu}_i(q)

    可得 :

    μˉ(p)+2lntp>μˉi(q)+2lntq\bar{\mu}_*(p)+\sqrt{\frac{2 \ln t}{p}}>\bar{\mu}_i(q)+\sqrt{\frac{2 \ln t}{q}}
  • 再由事实 (1)、(2),并结合上面的求和结果,可以得到式 2 成立。


  将引理 8.1 的两个不等式与下式综合

niT=1+t=K+1TI(it=i)1+t=K+1TI(it=i,nit1<)+t=K+1TI(it=i,nit1)+t=1T1p=1t1q=t1(I(μˉ(p)+2lntpμ)+I(μμi+22lntq)+I(μi+2lntqμˉi(q)))\begin{aligned} n_i^T=&1+\sum_{t=K+1}^T \mathbb{I}\left(i_t=i\right) \leqslant 1\\ &+\sum_{t=K+1}^T \mathbb{I}\left(i_t=i, n_i^{t-1}<\ell\right)+\sum_{t=K+1}^T \mathbb{I}\left(i_t=i, n_i^{t-1} \geqslant \ell\right)\\ &\leqslant\ell+\sum_{t=1}^{T-1} \sum_{p=1}^{t-1} \sum_{q=\ell}^{t-1}(\mathbb{I}\left(\bar{\mu}_*(p)+\sqrt{\frac{2 \ln t}{p}} \leqslant \mu_*\right)\\&+\mathbb{I}\left(\mu_* \leqslant \mu_i+2 \sqrt{\frac{2 \ln t}{q}}\right)+\mathbb{I}\left(\mu_i+\sqrt{\frac{2 \ln t}{q}} \leqslant \bar{\mu}_i(q)\right)) \end{aligned}

  令 =(8lnT)/Δi2\ell=\left\lceil(8 \ln T) / \Delta_i^2\right\rceil,可以使 :

22lntqΔi=μμi 在 q 时恒成立  上面求和式中 I(μμi+22lntq)=02 \sqrt{\frac{2 \ln t}{q}} \leqslant \Delta_i=\mu_*-\mu_i \text { 在 } q \geqslant \ell \text { 时恒成立 } \Leftrightarrow \text { 上面求和式中 } \mathbb{I}\left(\mu_* \leqslant \mu_i+2 \sqrt{\frac{2 \ln t}{q}}\right)=0

  将 n=p,t=2lntpn=p, t=\sqrt{\frac{2 \ln t}{p}} 代入 P(1ni=1nXiμt)exp(2nt2)P\left(\frac{1}{n} \sum_{i=1}^n X_i \geqslant \mu-t\right) \leqslant \exp \left(-2 n t^2\right); 将 n=p,t=2lntqn=p, t=\sqrt{\frac{2 \ln t}{q}} 代入 P(1ni=1nXiμ+t)exp(2nt2)P\left(\frac{1}{n} \sum_{i=1}^n X_i \geqslant \mu+t\right) \leqslant \exp \left(-2 n t^2\right),可得 :

P(μˉ(p)+2lntpμ)t4,P(μi+2lntqμˉi(q))t4P\left(\bar{\mu}_*(p)+\sqrt{\frac{2 \ln t}{p}} \leqslant \mu_*\right) \leqslant t^{-4}, \quad P\left(\mu_i+\sqrt{\frac{2 \ln t}{q}} \leqslant \bar{\mu}_i(q)\right) \leqslant t^{-4}

  对 niTn_i^T 求期望有 :

E[niT][8lnTΔi2]+2t=1p=1t1q=[8lnT/Δi2]t1t48lnTΔi2+1+2t=1t28lnTΔi2+1+π23\begin{aligned} \mathbb{E}\left[n_i^T\right] &\leqslant\left[\frac{8 \ln T}{\Delta_i^2}\right]+2 \sum_{t=1}^{\infty} \sum_{p=1}^{t-1} \sum_{q=\left[8 \ln T / \Delta_i^2\right]}^{t-1} t^{-4}\\ &\leqslant \frac{8 \ln T}{\Delta_i^2}+1+2 \sum_{t=1}^{\infty} t^{-2} \leqslant \frac{8 \ln T}{\Delta_i^2}+1+\frac{\pi^2}{3} \end{aligned}

  将遗憾的计算式

 regret =Tmaxi[K]μit=1Tμit=Tμt=1Tμit=i(μμi)niT=iΔiniT\begin{aligned} \text { regret }&=T \max _{i \in[K]} \mu_i-\sum_{t=1}^T \mu_{i_t}=T \mu_*-\sum_{t=1}^T \mu_{i_t}\\ &=\sum_{i \neq *}\left(\mu_*-\mu_i\right) n_i^T=\sum_{i \neq *} \Delta_i n_i^T \end{aligned}

  综合可得 :

E[ regret ]=iΔiE[niT]8ilnTΔi+(1+π23)iΔi=O(KlogT)\mathbb{E}[\text { regret }]=\sum_{i \neq *} \Delta_i \mathbb{E}\left[n_i^T\right] \leqslant 8 \sum_{i \neq *} \frac{\ln T}{\Delta_i}+\left(1+\frac{\pi^2}{3}\right) \sum_{i \neq *} \Delta_i=O(K \log T)

  定理得证。

随机线性赌博机

  • 在多臂赌博机中,虽然该遗憾界随迭代轮数𝑇增长非常缓慢,但是和摇臂的个数 KK 呈线性关系。当摇臂个数很大时,遗憾界会很大,效果未必理想。除此之外,随机多臂赌博机没有利用摇臂之间的关联。
  • 实际情况中,摇臂是有物理意义的,往往存在辅助信息可以用来估计摇臂的奖励。对于每一个商品,可以利用商品描述、用户评价等信息得到一个 dd 维的向量来表达该商品。这样,每一个摇臂就变成了一个 dd 维空间内的向量,而奖励可以建模为该向量的函数。

  对于摇臂 xRdx \in \mathbb{R}^d,随机线性赌博机假设其奖励均值 μx\mu_xxx 的线性函数,即 :

μx=xTw\mu_x=x^{\mathrm{T}} w^*

   wRdw^*\in\mathbb{R}^d 是一个未知的参数。

  • 通过这样的假设,不同的摇臂共享同一组参数 ww^*,从而建立起摇臂之间的关联。当学习器选择摇臂 xx 后,观测到奖励 :
y=xTw+ϵy=\boldsymbol{x}^{\mathrm{T}} \boldsymbol{w}^*+\epsilon

  其中 ϵ\epsilon 为均值为 0 的随机噪声。令 xRdx \subseteq \mathbb{R}^d 表示摇臂组成的集合,此处的遗憾定义为 :

 regret =TmaxxXxTwt=1TxtTw\text { regret }=T \max _{x \in X} \boldsymbol{x}^{\mathrm{T}} \boldsymbol{w}^*-\sum_{t=1}^T \boldsymbol{x}_t^{\mathrm{T}} \boldsymbol{w}^*

  其中 xtXx_t\in\mathcal{X} 表示学习器在第 tt 轮选择的摇臂

置信上界法

  • 如果学习器能够估计参数 ww^*,也就可以估计每一个摇臂 xx 的奖励均值 μx\mu_x。假设可以证明以很大的概率 wRw^*\in\mathcal{R},其中 R\mathcal{R} 表示置信区域。那么对于每一个摇臂 xx,可以构造置信上界
μ^x=maxwRtxTw\hat{\mu}_{\boldsymbol{x}}=\max _{\boldsymbol{w} \in \mathcal{R}_t} \boldsymbol{x}^{\mathrm{T}} \boldsymbol{w}

  并且以很大的概率 μx=xTwμ^x\mu_{\boldsymbol{x}}=\boldsymbol{x}^{\mathrm{T}} \boldsymbol{w}^* \leqslant \hat{\mu}_{\boldsymbol{x}}。算法就可以依据置信上界 μ^x\hat{\mu}_{\boldsymbol{x}} 来选择最优的摇臂, 得到奖励后更新置信区域。

  • 假设算法已经运行了 tt 轮,学习器选择了摇臂 x1,,xtx_1, \ldots, x_t, 并观测到奖励 y1,,yty_1, \ldots, y_t,注意到 yt=xtTw+ϵty_t=\boldsymbol{x}_t^{\mathrm{T}} \boldsymbol{w}^*+\epsilon_t,其中 ϵt\epsilon_t 为均值为 0 的随机噪声,因此,基于现有的 tt 轮观测数据,可以通过求解岭回归问题来估计参数 ww^* :
wt=argminwRdi=1t(yixiTw)2+λw2\boldsymbol{w}_t=\underset{\boldsymbol{w} \in \mathbb{R}^d}{\arg \min } \sum_{i=1}^t\left(y_i-\boldsymbol{x}_i^{\mathrm{T}} \boldsymbol{w}\right)^2+\lambda\|\boldsymbol{w}\|^2

  上述优化问题有如下闭式解 :

wt=(λI+i=1txixiT)1(i=1tyixi)\boldsymbol{w}_t=\left(\lambda \mathbf{I}+\sum_{i=1}^t \boldsymbol{x}_i \boldsymbol{x}_i^{\mathrm{T}}\right)^{-1}\left(\sum_{i=1}^t y_i \boldsymbol{x}_i\right)
  • 根据 Sherman-Morrison-Woodbury 公式

    (A+UVT)1=A1A1U(I+VTA1U)1VTA1\left(\mathbf{A}+\mathbf{U V}^{\mathrm{T}}\right)^{-1}=\mathbf{A}^{-1}-\mathbf{A}^{-1} \mathbf{U}\left(\mathbf{I}+\mathbf{V}^{\mathrm{T}} \mathbf{A}^{-1} \mathbf{U}\right)^{-1} \mathbf{V}^{\mathrm{T}} \mathbf{A}^{-1}

    学习算法可以在线计算 :

    wt=(Zt11Zt11xtxtTZt111+xtTZt11xt)(zt1+ytxt)=wt1+(ytxtTZt11Zt1+xtTZt11xt)Zt11xtZt1=Zt11Zt11xtxtTZt111+xtTZt11xt,zt=zt1+ytxt\begin{aligned} \boldsymbol{w}_t&=\left(\mathbf{Z}_{t-1}^{-1}-\frac{\mathbf{Z}_{t-1}^{-1} \boldsymbol{x}_t \boldsymbol{x}_t^{\mathrm{T}} \mathbf{Z}_{t-1}^{-1}}{1+\boldsymbol{x}_t^{\mathrm{T}} \mathbf{Z}_{t-1}^{-1} \boldsymbol{x}_t}\right)\left(\mathbf{z}_{t-1}+y_t \boldsymbol{x}_t\right) \\ &=\boldsymbol{w}_{t-1}+\left(y_t-\frac{\boldsymbol{x}_t^{\mathrm{T}} \mathbf{Z}_{t-1}^{-1} \mathbf{Z}_t}{1+\boldsymbol{x}_t^{\mathrm{T}} \mathbf{Z}_{t-1}^{-1} \boldsymbol{x}_t}\right) \mathbf{Z}_{t-1}^{-1} \boldsymbol{x}_t \\ \mathbf{Z}_t^{-1}&=\mathbf{Z}_{t-1}^{-1}-\frac{\mathbf{Z}_{t-1}^{-1} x_t x_t^{\mathrm{T}} \mathbf{Z}_{t-1}^{-1}}{1+\boldsymbol{x}_t^{\mathrm{T}} \mathbf{Z}_{t-1}^{-1} \boldsymbol{x}_t}, z_t=z_{t-1}+y_t x_t \end{aligned}

    其中 Zt1=λI+i=1t1xixiT,zt1=i=1t1yixi\mathbf{Z}_{t-1}=\lambda \mathbf{I}+\sum_{i=1}^{t-1} \boldsymbol{x}_i \boldsymbol{x}_i^{\mathrm{T}}, \quad \mathbf{z}_{t-1}=\sum_{i=1}^{t-1} y_i \boldsymbol{x}_i,学习器不需再保存历史数据 (x1,y1),(xt,yt)\left(x_1, y_1\right), \ldots\left(x_t, y_t\right),只需要在线维护 Zt11,zt,wt\mathbf{Z}_{t-1}^{-1},z_t,w_t 即可。

  • 基于 wtw_t,可以利用集中不等式构造参数 ww^* 的的置信区域


引理 8.2 假设观测数据满足 yt=xtTw+ϵty_t=\boldsymbol{x}_t^T \boldsymbol{w}^*+\epsilon_t,其中噪声 ϵt\epsilon_t 均值为 0,并且是条件 μ\mu-次高斯(conditionally 𝜇-sub-Gaussian),即

Et[eλϵt]exp(λ2μ22),λR\mathbb{E}_t\left[e^{\lambda \epsilon_t}\right] \leqslant \exp \left(\frac{\lambda^2 \mu^2}{2}\right), \forall \lambda \in \mathbb{R}

  若 wΛ,xtr,t[T]\left\|\boldsymbol{w}^*\right\| \leqslant \Lambda,\left\|\boldsymbol{x}_t\right\| \leqslant r, \forall t \in[T],则以至少 1δ1-\delta 的概率有 :

wRt={wRdwwtZtμ2ln1δ+dln(1+tr2λd)+Λλ}\boldsymbol{w}^* \in \mathcal{R}_t=\left\{\boldsymbol{w} \in \mathbb{R}^d \mid \left\|\boldsymbol{w}-\boldsymbol{w}_t\right\|_{Z_t} \leqslant \mu \sqrt{2 \ln \frac{1}{\delta}+d \ln \left(1+\frac{t r^2}{\lambda d}\right)}+\Lambda \sqrt{\lambda}\right\}

  其中 Zt=λI+i=1txixiT\mathbf{Z}_{\mathrm{t}}=\lambda \mathbf{I}+\sum_{\mathrm{i}=1}^{\mathrm{t}} \mathbf{x}_{\mathrm{i}} \mathbf{x}_{\mathrm{i}}^{\mathbf{T}}

  • 引理 8.2 表明,ww^* 以大概率位于一个中心为 wtw_t 的椭圆 Rt\mathcal{R}_t

  • 基于置信上界的随机线性赌博机的整体流程如下


定理 8.4 (随机线性赌博机遗憾界) 假设引理 8.2 的前提条件成立,那么以大概率置信上界算法满足

TmaxxXxTwt=1TxtTw=O~(dT)\operatorname{Tmax}_{x \in \mathcal{X}} \boldsymbol{x}^T \boldsymbol{w}^*-\sum_{t=1}^T \boldsymbol{x}_t^T \boldsymbol{w}^*=\tilde{O}(d \sqrt{T})

证明

  为了简化分析,我们假设 1xTw1,xX-1 \leqslant \boldsymbol{x}^T \boldsymbol{w}^* \leqslant 1, \forall \boldsymbol{x} \in \mathcal{X},令 x=argmaxxXxTw\boldsymbol{x}^*=\arg \max _{x \in \mathcal{X}} x^T \boldsymbol{w}^*,算法在第 tt 轮的遗憾为 :

rt=(x)TwxtTwr_t=\left(\boldsymbol{x}^*\right)^T \boldsymbol{w}^*-\boldsymbol{x}_t^T \boldsymbol{w}^*

  令 (xt,w~t)=argmax(x,w)X×Rt1xTw\left(\boldsymbol{x}_t, \widetilde{\boldsymbol{w}}_t\right)=\arg \max _{(\boldsymbol{x}, \boldsymbol{w}) \in \mathcal{X} \times \mathcal{R}_{t-1}} \boldsymbol{x}^T \boldsymbol{w},以 1δ1-\delta 的概率有 :

wRt1(x)TwxtTw~t\boldsymbol{w}^* \in \mathcal{R}_{t-1} \Rightarrow\left(\boldsymbol{x}^*\right)^T \boldsymbol{w}^* \leqslant \boldsymbol{x}_t^T \widetilde{\boldsymbol{w}}_t

  因此,以 1δ1-\delta 的概率有 :

rtxtTw~txtTw=xtT(w~tw)=xtT(w~twt1)+xtT(wt1w)r_t \leqslant \boldsymbol{x}_t^T \widetilde{\boldsymbol{w}}_t-\boldsymbol{x}_t^T \boldsymbol{w}^*=\boldsymbol{x}_t^T\left(\widetilde{\boldsymbol{w}}_t-\boldsymbol{w}^*\right)=\boldsymbol{x}_t^T\left(\widetilde{\boldsymbol{w}}_t-\boldsymbol{w}_{t-1}\right)+\boldsymbol{x}_t^T\left(\boldsymbol{w}_{t-1}-\boldsymbol{w}^*\right)

  根据 Cauchy-Schwarz 不等式 :

rtw~twt1zt1xtZt11+wt1wzt1xtZt11r_t \leqslant\left\|\widetilde{w}_t-w_{t-1}\right\| z_{t-1}\left\|x_t\right\|_{Z_{t-1}^{-1}}+\left\|w_{t-1}-w^*\right\| z_{t-1}\left\|x_t\right\|_{Z_{t-1}^{-1}}

  根据引理 8.2,可以进一步得到 :

rt2γt1xtZt11r_t \leqslant 2 \gamma_{t-1}\left\|\boldsymbol{x}_t\right\|_{Z_{t-1}^{-1}}

  其中,γt=μ2ln1δ+dln(1+tr2λd)+Λλ\gamma_t=\mu \sqrt{2 \ln \frac{1}{\delta}+d \ln \left(1+\frac{t r^2}{\lambda d}\right)}+\Lambda \sqrt{\lambda},根据条件 1xTw1-1 \leqslant \mathbf{x}^{\mathrm{T}} \mathbf{w}^* \leqslant 1,可知 rt2r_t\leqslant2,结合上式可得 :

rt2min(γt1xtZt11,1)r_t \leqslant 2 \min \left(\gamma_{t-1}\left\|x_t\right\|_{Z_{t-1}^{-1}}, 1\right)

  因此,以 1δ1-\delta 的概率有 :

maxxXxTwt=1TxtTw=t=1TrtTt=1Trt22Tt=1Tmin(γt12xtZt112,1)(γt=μ2ln1δ+dln(1+tr2λd)+Λλγt随 t 增加而增大,为简化符号,假设 T 足够大使得γT1)2Tt=1Tmin(γT2xtZt112,1)2γTTt=1Tmin(xtZt112,1)\begin{aligned} \max _{\boldsymbol{x} \in \mathcal{X}} \boldsymbol{x}^T \boldsymbol{w}^*-\sum_{t=1}^T \boldsymbol{x}_t^T \boldsymbol{w}^* & =\sum_{t=1}^T r_t \leqslant \sqrt{T \sum_{t=1}^T r_t^2 } \\ &\leqslant 2 \sqrt{T \sum_{t=1}^T \min \left(\gamma_{t-1}^2\left\|\boldsymbol{x}_t\right\|_{Z_{t-1}^{-1}}^2, 1\right)} \\ &(\gamma_t=\mu \sqrt{2 \ln \frac{1}{\delta}+d \ln \left(1+\frac{t r^2}{\lambda d}\right)}+\Lambda \sqrt{\lambda}\\ &\gamma_t \text{随 } t \text{ 增加而增大,为简化符号,假设 }T \text{ 足够大使得} \gamma_T\geqslant1) \\ & \leqslant 2 \sqrt{T \sum_{t=1}^T \min \left(\gamma_T^2\left\|\boldsymbol{x}_t\right\|_{Z_{t-1}^{-1}}^2, 1\right)} \\ & \leqslant 2 \gamma_T \sqrt{T \sum_{t=1}^T \min \left(\left\|\boldsymbol{x}_t\right\|_{Z_{t-1}^{-1}}^2, 1\right)} \end{aligned}

  根据 Zt1=λI+i=1t1xixiT\mathbf{Z}_{\mathrm{t}-1}=\lambda \mathbf{I}+\sum_{\mathrm{i}=1}^{\mathrm{t}-1} \mathbf{x}_{\mathrm{i}} \mathbf{x}_{\mathrm{i}}^{\mathrm{T}} 的表达式,可以证明 :

t=1Tmin(xtZt112,1)2lndet(ZT)det(λI)2dln(1+Tr2λd)\sum_{\mathrm{t}=1}^{\mathrm{T}} \min \left(\left\|\mathrm{x}_{\mathrm{t}}\right\|_{\mathbf{Z}_{\mathrm{t}-1}^{-1}}^2, 1\right) \leqslant 2 \ln \frac{\operatorname{det}\left(\mathbf{Z}_{\mathrm{T}}\right)}{\operatorname{det}(\lambda \mathbf{I})} \leqslant 2 \operatorname{d}\ln\left(1+\frac{\operatorname{Tr}^2}{\lambda \mathrm{d}}\right)

  将上式代入上上式,可知,以 1δ1-\delta 的概率有 :

TmaxxXxTwt=1TxtTw22Tdln(1+Tr2λd)(μ2ln1δ+dln(1+Tr2λd)+Λλ)=O~(dT)\begin{aligned} &\operatorname{Tmax}_{x \in \mathcal{X}} \boldsymbol{x}^T \boldsymbol{w}^*-\sum_{t=1}^T \boldsymbol{x}_t^T \boldsymbol{w}^* \\ &\leqslant 2 \sqrt{2 T d \ln \left(1+\frac{T r^2}{\lambda d}\right)}\left(\mu \sqrt{2 \ln \frac{1}{\delta}+d \ln \left(1+\frac{T r^2}{\lambda d}\right)}+\Lambda \sqrt{\lambda}\right) \\ &=\tilde{O}(d \sqrt{T}) \end{aligned}

  定理得证。


凸赌博机

  • 设定 : 解空间 W\mathcal{W} 以及所有的损失函数 ft():WRf_t(\cdot): \mathcal{W} \mapsto \mathbb{R} 都是凸的

  • 完全信息设定下,学习器可以观测到完整的损失函数,因此可以求梯度。但是在赌博机设定下,学习器只能观测到损失函数 ft()f_t(\cdot) 在决策 wtw_t 上的值 ft(wt)f_t(w_t)。因此无法直接应用在线梯度下降算法。针对这一问题,需要引入从函数值估计梯度的技术。

  • 首先,定义单位球体 B\mathbb{B} 和单位球面 S\mathbb{S} :

B={wRdw1},S={wRdw=1}\mathbb{B}=\left\{\boldsymbol{w} \in \mathbb{R}^d \mid\|\boldsymbol{w}\| \leqslant 1\right\}, \mathbb{S}=\left\{\boldsymbol{w} \in \mathbb{R}^d \mid\|\boldsymbol{w}\|=1\right\}

  令 vv 表示均匀分布在单位球体 B\mathbb{B} 内的随机变量,对给定函数,定义 :

f^(w)=EvB[f(w+δv)]\hat{f}(\boldsymbol{w})=\mathbb{E}_{\boldsymbol{v} \in \mathbb{B}}[f(\boldsymbol{w}+\delta \boldsymbol{v})]

  其中δ>0\delta>0 为参数,f^()\hat{f}(\cdot) 可以当做函数 f()f(\cdot) 的光滑近似,当 δ\delta 很小时,f^()\hat{f}(\cdot)f()f(\cdot) 非常接近。函数 f^()\hat{f}(\cdot) 具备一个非常重要的性质 : 可以通过采样获得它的随机梯度。

从函数值估计梯度


引理 8.3 令 uu 表示均匀分布在单位球面 S\mathbb{S} 内的随机变量,有 :

EuS[f(w+δu)u]=δdf^(w)\mathbb{E}_{\mathbf{u} \in \mathbb{S}}[\mathrm{f}(\mathbf{w}+\delta \mathbf{u}) \mathbf{u}]=\frac{\delta}{\mathrm{d}} \nabla \hat{\mathrm{f}}(\mathbf{w})

  依据引理 8.3,可知 dδf(w+δu)u\frac{\mathrm{d}}{\delta} \mathrm{f}(\mathbf{w}+\delta \mathbf{u}) \mathbf{u}f^()\hat{f}(\cdot)ww 处的随机梯度。同时,当 δ\delta 很小时,f^()f()\hat{f}(\cdot)\approx f(\cdot),从而可以用 dδf(w+δu)u\frac{\mathrm{d}}{\delta} \mathrm{f}(\mathbf{w}+\delta \mathbf{u}) \mathbf{u} 来近似函数 f()f(\cdot)ww 处的梯度,也就可以执行梯度下降算法。

  • 依据上述思路设计的在线算法流程如下

  • 根据 f^(w)=EvB[f(w+δv)]\hat{f}(\boldsymbol{w})=\mathbb{E}_{\boldsymbol{v} \in \mathbb{B}}[f(\boldsymbol{w}+\delta \boldsymbol{v})],定义

    f^t(w)=EvB[ft(w+δv)]\hat{f}_t(\boldsymbol{w})=\mathbb{E}_{\boldsymbol{v} \in \mathbb{B}}[f_t(\boldsymbol{w}+\delta \boldsymbol{v})]
  • 对于刚才的算法,说明 :

    • 首先,算法引入了一个辅助向量序列 z1,z2,z_1,z_2,\ldots 并且最后在变量 ztz_t 执行在线梯度下降。这是因为依据引理 8.3, dδf(wt)ut\frac{\mathrm{d}}{\delta} f\left(\mathbf{w}_{\mathrm{t}}\right) \mathbf{u}_{\mathrm{t}}f()f(\cdot)ztz_t 处的随机梯度,并不是在 wtw_t 处的随机梯度
    • 在最后执行投影操作时,算法将中间解投影到了 (1α)W(1−\alpha)\mathcal{W},而不是 W\mathcal{W},这样做的目的是使得 zt+1z_{t+1} 处于可行域 W\mathcal{W} 的内部,从而保证 wt+1=zt+1+δut+1\mathbf{w}_{\mathrm{t}+1}=\mathbf{z}_{\mathrm{t}+1}+\delta \mathbf{u}_{\mathrm{t}+1} 依然处于可行域 W\mathcal{W}
  • 在健忘设定下,即函数序列 f1,,fTf_1,\ldots,f_T 和学习器的决策无关时,可以证明上述算法从期望意义上达到了 O(T3/4)O(T^{3/4}) 的遗憾界

随机版本在线梯度下降


引理 8.4 考虑如下的随机版本在线梯度下降,任意初始化 w1Ww_1\in\mathcal{W} 每轮更新公式为 :

wt+1=ΠW(wtηgt)\mathbf{w}_{\mathrm{t}+1}=\Pi_{\mathcal{W}}\left(\mathbf{w}_{\mathrm{t}}-\eta g_{\mathrm{t}}\right)

  其中 E[gtwt]=ft(wt)\mathbb{E}\left[g_t \mid \mathbf{w}_{\mathrm{t}}\right]=\nabla \mathrm{f}_{\mathrm{t}}\left(\mathbf{w}_{\mathrm{t}}\right) 且满足 gtl\|g_t\|\leqslant l,假设 WΛB\mathcal{W}\subseteq\Lambda\mathbb{B},采用步长 η=Λ/(lT)\eta=\Lambda/(l\sqrt{T}) 的随机版本在线梯度下降满足

E[t=1Tft(wt)]minwWt=1Tft(w)1ΛT\mathbb{E}\left[\sum_{\mathrm{t}=1}^{\mathrm{T}} \mathrm{f}_{\mathrm{t}}\left(\mathbf{w}_{\mathrm{t}}\right)\right]-\min _{\mathbf{w} \in \mathcal{W}} \sum_{\mathrm{t}=1}^{\mathrm{T}} \mathrm{f}_{\mathrm{t}}(\mathbf{w}) \leqslant 1 \Lambda \sqrt{\mathrm{T}}

  此外,还将利用以下引理,刻画缩减投影引入的误差


引理 8.5 (缩减投影的误差) 若函数 f1,,fTf1,\ldots,f_T 满足 fi(w)c, wW, i[T]\left|\mathrm{f}_{\mathrm{i}}(\mathbf{w})\right| \leqslant \mathrm{c}, \ \forall \mathbf{w} \in \mathcal{W},\ i\in [T] 则有如下不等式成立

minw(1α)Wt=1Tft(w)minwWt=1Tft(w)2αc T\min _{\mathbf{w} \in(1-\alpha) \mathcal{W}} \sum_{\mathrm{t}=1}^{\mathrm{T}} \mathrm{f}_{\mathrm{t}}(\mathbf{w})-\min _{\mathbf{w} \in \mathcal{W}} \sum_{\mathrm{t}=1}^{\mathrm{T}} \mathrm{f}_{\mathrm{t}}(\mathbf{w}) \leqslant 2 \alpha c \mathrm{~T}

定理 8.5 凸赌博机遗憾界对于固定的函数序列f1,,fT:W[c,c]f_1, \ldots, f_T: \mathcal{W} \mapsto[-c, c] 若每一个损失函数 ft()f_t(\cdot) 都是 ll-Lipschitz连续的,则

E[t=1Tft(wt)]minwWt=1Tft(w)=O(T3/4)\mathbb{E}\left[\sum_{t=1}^T f_t\left(w_t\right)\right]-\min _{w \in \mathcal{W}} \sum_{t=1}^T f_t(\boldsymbol{w})=O\left(T^{3 / 4}\right)

证明

  假设可行域 W\mathcal{W} 满足 Λ1BWΛ2B\Lambda_1 \mathbb{B} \subseteq \mathcal{W} \subseteq \Lambda_2 \mathbb{B} , 令 η=Λ2cT,α=δΛ1,δ=T1/4dcΛ1Λ23(lΛ1+c)\eta=\frac{\Lambda_2}{c \sqrt{T}}, \alpha=\frac{\delta}{\Lambda_1},\delta=T^{-1 / 4} \sqrt{\frac{d c \Lambda_1 \Lambda_2}{3\left(l \Lambda_1+c\right)}},定义 w^=argminw(1α)Wt=1Tft(w)\widehat{\mathbf{w}}^*=\arg \min _{\mathbf{w} \in(1-\alpha) \mathcal{W}} \sum_{\mathrm{t}=1}^{\mathrm{T}} \mathrm{f}_{\mathrm{t}}(\mathbf{w}),首先,对期望的遗憾进行改写 :

E[t=1Tft(wt)]minwWt=1Tft(w)=E[t=1Tft(wt)]minw(1α)wt=1Tft(w)+minw(1α)wt=1Tft(w)minwWt=1Tft(w)E[t=1Tft(wt)]t=1Tft(w^)+2acT=E[t=1Tft(zt)]t=1Tft(w^)+E[t=1Tft(wt)f^t(zt)]+[t=1Tf^t(w^)ft(w^)]+2acT\begin{aligned} & \mathbb{E}\left[\sum_{t=1}^T f_t\left(\boldsymbol{w}_t\right)\right]-\min _{\boldsymbol{w} \in \mathcal{W}} \sum_{t=1}^T f_t(\boldsymbol{w}) \\ = & \mathbb{E}\left[\sum_{t=1}^T f_t\left(\boldsymbol{w}_t\right)\right]-\min _{\boldsymbol{w} \in(1-\alpha) \boldsymbol{w}} \sum_{t=1}^T f_t(\boldsymbol{w})+\min _{\boldsymbol{w} \in(1-\alpha) \boldsymbol{w}} \sum_{t=1}^T f_t(\boldsymbol{w})-\min _{\boldsymbol{w} \in \mathcal{W}} \sum_{t=1}^T f_t(\boldsymbol{w}) \\ \leqslant & \mathbb{E}\left[\sum_{t=1}^T f_t\left(w_t\right)\right]-\sum_{t=1}^T f_t\left(\widehat{\boldsymbol{w}}^*\right)+2 a c T \\ = & \mathbb{E}\left[\sum_{t=1}^T f_t\left(z_t\right)\right]-\sum_{t=1}^T f_t\left(\widehat{w}^*\right)+\mathbb{E}\left[\sum_{t=1}^T f_t\left(w_t\right)-\hat{f}_t\left(z_t\right)\right] \\ & +\left[\sum_{t=1}^T \hat{f}_t\left(\widehat{w}^*\right)-f_t\left(\widehat{w}^*\right)\right]+2 a c T \end{aligned}

  根据 f^t(w)=EvB[ft(w+δv)\hat{f}_t(\boldsymbol{w})=\mathbb{E}_{\boldsymbol{v} \in \mathbb{B}}[f_t(\boldsymbol{w}+\delta \boldsymbol{v}),以及 ft()f_t(\cdot)ll−Lipschitz 连续的假设,可得 :

f^t(w^)ft(w^)lδf^t(zt)ft(zt)lδ,t[T]\begin{aligned} & \left|\hat{f}_t\left(\widehat{\boldsymbol{w}}^*\right)-f_t\left(\widehat{\boldsymbol{w}}^*\right)\right| \leqslant l \delta \\ & \left|\hat{f}_t\left(z_t\right)-f_t\left(z_t\right)\right| \leqslant l \delta, \forall t \in[T] \end{aligned}

  此外,根据 wtw_t 的定义,有 :

ft(wt)ft(zt)=ft(zt+δut)ft(zt)lδ,t[T]\left|f_t\left(\boldsymbol{w}_t\right)-f_t\left(z_t\right)\right|=\left|f_t\left(z_t+\delta \boldsymbol{u}_t\right)-f_t\left(z_t\right)\right| \leqslant l \delta, \forall t \in[T]

  与上式结合有

ft(wt)f^t(zt)ft(wt)ft(zt)+ft(zt)f^t(zt)2lδ,t[T]\left|f_t\left(\boldsymbol{w}_t\right)-\hat{f}_t\left(\mathbf{z}_t\right)\right| \leqslant\left|f_t\left(\boldsymbol{w}_t\right)-f_t\left(\mathbf{z}_t\right)\right|+\left|f_t\left(\mathbf{z}_t\right)-\hat{f}_t\left(\mathbf{z}_t\right)\right| \leqslant 2 l \delta, \forall t \in[T]

  最终得到

E[t=1Tft(wt)&]minwWt=1Tft(w)E[t=1Tf^t(zt)]minw(1α)Wt=1Tf^t(w)+3lδT+2αcT\mathbb{E}\left[\sum_{t=1}^T f_t\left(\boldsymbol{w}_t\right) \&\right]-\min _{\boldsymbol{w} \in \mathcal{W}} \sum_{t=1}^T f_t(\boldsymbol{w}) \leq \mathbb{E}\left[\sum_{t=1}^T \hat{f}_t\left(z_t\right)\right]-\min _{w \in(1-\alpha) W} \sum_{t=1}^T \hat{f}_t(\boldsymbol{w})+3 l \delta T+2 \alpha c T

  根据公式 zt+1=Π(1α)W(ztηft(wt)ut)\boldsymbol{z}_{t+1}=\Pi_{(1-\alpha) \mathcal{W}}\left(\boldsymbol{z}_t-\eta f_t\left(\boldsymbol{w}_t\right) \boldsymbol{u}_t\right) 以及步长的设置,可得 :

zt+1=Π(1a)w(ztΛ2(dc/δ)Tdδft(wt)ut)\mathrm{z}_{\mathrm{t}+1}=\Pi_{(1-\mathrm{a}) \mathrm{w}}\left(\mathrm{z}_{\mathrm{t}}-\frac{\Lambda_2}{(\mathrm{dc} / \delta) \sqrt{\mathrm{T}}} \frac{\mathrm{d}}{\delta} \mathrm{f}_{\mathrm{t}}\left(\mathrm{w}_{\mathrm{t}}\right) \mathrm{u}_{\mathrm{t}}\right)

  依据引理 8.3,可知上述算法本质上是在对 f^()\hat{f}(\cdot) 进行随机版本的在线梯度下降,其中随机梯度为 dδf(wt)ut\frac{\mathrm{d}}{\delta} f\left(\mathbf{w}_{\mathrm{t}}\right) \mathbf{u}_{\mathrm{t}},可行域为 (1α)W(1 − \alpha)\mathcal{W},注意到 (1α)WΛ2B(1-\alpha) \mathcal{W} \subseteq \Lambda_2 \mathbb{B},随机梯度的上界为 :

dδft(wt)utdcδ\left\|\frac{\mathrm{d}}{\delta} f_{\mathrm{t}}\left(\mathbf{w}_{\mathrm{t}}\right) \mathbf{u}_{\mathrm{t}}\right\| \leqslant \frac{\mathrm{dc}}{\delta}

  因此上上式再满足引理 8.4 的前提条件下,可得 :

E[t=1Tf^t(zt)]minw(1α)Wt=1Tf^t(w)dcδΛ2T\mathbb{E}\left[\sum_{\mathrm{t}=1}^{\mathrm{T}} \hat{\mathrm{f}}_{\mathrm{t}}\left(\mathrm{z}_{\mathrm{t}}\right)\right]-\min _{\mathrm{w} \in(1-\alpha) \mathcal{W}} \sum_{\mathrm{t}=1}^{\mathrm{T}} \hat{\mathrm{f}}_{\mathrm{t}}(\mathbf{w}) \leqslant \frac{\mathrm{dc}}{\delta} \Lambda_2 \sqrt{\mathrm{T}}

  代入可得 :

E[t=1Tft(wt)minwWt=1Tft(w)]dcΛ2Tδ+3lδT+2αcT=dcΛ2Tδ+(3l+2cΛ1)δTdcΛ2Tδ+3(lΛ1+c)Λ1δT=23dcΛ2(lΛ1+c)Λ1T3/4=O(T3/4)\begin{aligned} \mathbb{E}[\sum_{t=1}^T f_t\left(\boldsymbol{w}_t\right) & -\min_{\boldsymbol{w} \in \mathcal{W}} \sum_{t=1}^T f_t(\boldsymbol{w})] \\ & \leqslant \frac{d c \Lambda_2 \sqrt{T}}{\delta}+3 l \delta T+2 \alpha c T=\frac{d c \Lambda_2 \sqrt{T}}{\delta}+\left(3 l+\frac{2 c}{\Lambda_1}\right) \delta T \\ & \leqslant \frac{d c \Lambda_2 \sqrt{T}}{\delta}+\frac{3\left(l \Lambda_1+c\right)}{\Lambda_1} \delta T \\ &= 2 \sqrt{\frac{3 d c \Lambda_2\left(l \Lambda_1+c\right)}{\Lambda_1}} T^{3 / 4}=O\left(T^{3 / 4}\right) \end{aligned}

  定理得证。