7 鞅

166 阅读6分钟

这玩意也太复杂了。。。

定义

给定随机变量序列序列XiX_i,构造一个新的随机变量序列ZnZ_n,满足ZnZ_nX1,...XnX_1,...X_n的函数,且ZnZ_n有界,并且E[Zn+1X0,...,Xn]=ZnE[Z_{n+1}|X_0, ..., X_n]=Z_n,那ZZ序列是关于XX序列的一个鞅。

eg:赌博问题,每一轮以1/2的概率赢的或输掉1元,设ZnZ_n表示前nn轮总的赢钱数,那么ZZ是一个鞅。

  • 杜步鞅:YY是一个一般依赖于X1,...,XnX_1, ..., X_n的随机变量,而Zi=E[YX0,...,Xi]Z_i=E[Y|X_0, ..., X_i]。并且要求E[Y]E[|Y|]有界。

为啥是一个鞅呢。因为要求有界了,所以前面的两个条件都能满足,关键是最后那个条件。E[Zi+1X0,...,Xi]=E[E[YX0,...,Xi+1]X0,...,Xi]=E[YX0,...,Xi]=ZiE[Z_{i+1}|X_0, ..., X_i]=E[E[Y|X_0, ..., X_{i+1}]|X_0, ..., X_i]=E[Y|X_0, ..., X_i]=Z_i得证。

这个的直觉在于,设置了一个YY作为对全局的估计,然后XX这个序列一步步增加我们知道的信息,ZZ就是随着每一步知道的信息增加我们得到的新的条件期望。这构成了一个鞅。

eg 暴露鞅。假设对一个图,一开始我们什么都不知道,我们设YY是独立集的期望。那这个图最多有Cn2C_n^2条边,然后XiX_i表示第i条可能的边有没有连边。那随着XiX_i序列的进行,我们的估计Zi=E[YX0,...,Xi]Z_i=E[Y|X_0,...,X_i]也不断产生,这就形成了一个杜步鞅。

鞅的性质引理

如果ZiZ_i是关于XiX_i的一个鞅,那么E[Zn]=E[Z0]E[Z_n]=E[Z_0]

证明: E[Zi]=E[E[Zi+1X0,...,Xi]]=E[Zi+1]E[Z_i]=E[E[Z_{i+1}|X_0,...,X_i]]=E[Z_{i+1}],归纳可证。

鞅停时定理

停时

什么是停时?一个随机变量TT。他满足T=nT=n的概率与变量Zn+jZ1,...,Zn,j1{Z_{n+j}|Z_1, ..., Z_n, \forall j \ge 1}无关。

直观理解就是,T是某个时刻,这个时刻满足的条件,仅仅依赖于该时刻之前的事件。比如,在赌博问题中,首次连续赢5次时游戏进行的轮次就是一个停时。因为它只依赖于这之前的事件中,与之相邻的5次都赢,而再之前的事件不能出现5次全赢即可,和后面的时间无关。

此外,停时的定义是独立于鞅而存在的。

停时定理

如果T是停时,那么E[ZT]=E[Z0]E[Z_T]=E[Z_0]只需满足如下三条件之一:1)ZiZ_i有界。2)T有界。3)E[T]E[T]有界且E[Zi+1ZiX1,...,Xi]E[|Z_{i+1}-Z_i||X_1,...,X_i]有界

这里看起来很奇怪,明明在前面鞅的性质引理已经证明了,似乎仅仅按照定义就可以推出任何E[Zi]=E[Z0]E[Z_i]=E[Z_0]了,为啥停时还需要满足额外的条件呢?原因在于停时本身可能过于苛刻,导致很不容易出现,如果T是无限的,那这会动摇我们证明引理时归纳的根基。所以才会有上面的三条件。

eg1 重新分析赌徒破产问题的概率

设停时T为首次赢得l1l_1元或首次输掉l2l_2元的概率。构造鞅ZiZ_i为前i轮的赢利。那么显然ZZ是有界的,可以利用停时定理。E[ZT]=E[Z0]=0E[Z_T]=E[Z_0]=0。那么在停时有两种情况,一种是赢了(设概率为p),一种是输了(概率为1-p),因此E[ZT]=pl1(1p)l2=0E[Z_T]=pl_1 - (1-p)l_2=0,可以求出获胜概率为p=l2l1+l2p=\frac{l_2}{l_1+l_2}

eg2 选举定理

假设两个人参加选举,总共有n=a+b个人投票,投给A的人有a个,B有b票。假设a大于b。投票的人是均匀分布的,那么A始终保持领先的概率是多少?

SkS_k表示前k个人投票完成后,A的领先票数。对于这个序列,构造一个鞅Zk=Snknk(0kn1)Z_k=\frac{S_{n-k}}{n-k} (0\le k \le n-1)。可以看到我这个鞅是倒序构造的。

先证明他真的是一个鞅,这里证明他是关于自身的鞅,而不是关于S的鞅,很明显ZkZ_k有界,接下来证E[ZkZ0,...,Zk1]E[Z_k|Z_0, ..., Z_{k-1}], 即E[SnknkZ0,Z1,..,Zk1]E[\frac{S_{n-k}}{n-k}|Z_0, Z_1,..,Z_{k-1}]

因为Z和S之间的关系是完全确定的,所以E[SnknkZ0,Z1,..,Zk1]=E[SnknkSn,...,Snk+1]=E[SnknkSnk+1]E[\frac{S_{n-k}}{n-k}|Z_0, Z_1,..,Z_{k-1}]=E[\frac{S_{n-k}}{n-k}|S_n, ..., S_{n-k+1}]=E[\frac{S_{n-k}}{n-k}|S_{n-k+1}]

那么Snk+1S_{n-k+1}怎么推SnkS_{n-k}呢,这里反人类的地方在于鞅的构造是倒序的。所以不能考虑第n-k+1个人投票引发的数量变化。应该这样考虑,经过第nk+1n-k+1轮后,总共出现了n-k+1张票,投给A的票-投给B的票数量为Snk+1S_{n-k+1},因此在第nk+1n-k+1轮后A和B的票分别为(nk+1+Snk+1)/2(n-k+1+S_{n-k+1})/2(nk+1Snk+1)/2(n-k+1-S_{n-k+1})/2。而因为每一轮投票都是等概率的,所以在这些票中,刚好是上一次投出来的概率也是按照比例分配的,因此第n-k+1个人投票的投给A的概率是(nk+1+Snk+1)/(2(nk+1))(n-k+1+S_{n-k+1})/(2(n-k+1))。类似可以计算投给B的概率。然后可以得到

E[SnknkZ0,Z1,..,Zk1]=E[SnknkSnk+1]=1nk((Snk+1+1)(nk+1Snk+1)/(2(nk+1))+(Snk+11)(nk+1+Snk+1)/(2(nk+1)))=Snk+1/(nk+1)=Xk1 E[\frac{S_{n-k}}{n-k}|Z_0, Z_1,..,Z_{k-1}]=E[\frac{S_{n-k}}{n-k}|S_{n-k+1}]=\frac{1}{n-k}((S_{n-k+1}+1)(n-k+1-S_{n-k+1})/(2(n-k+1))+(S_{n-k+1}-1)(n-k+1+S_{n-k+1})/(2(n-k+1)))=S_{n-k+1}/(n-k+1)=X_{k-1}

接下来考虑停时T为首次A被B追平的时刻。如果A始终领先,那么T为n-1。显然T有界,可以用停时定理E[XT]=E[X0]=E[Sn]/n=(ab)/(a+b)E[X_T]=E[X_0]=E[S_n]/n=(a-b)/(a+b)

既然要计算始终保持领先的概率,那得想办法让E[XT]E[X_T]和概率发生关系。因此分析期望的计算过程。

如果A始终领先,那概率p就是我们希望的,在这种情况下T=n1T=n-1的,因此XT=S1=1X_T=S_1=1。在其他不是始终领先的情况(概率为1-p)。那么根据T的定义XT=0X_T=0。因此E[XT]=p1+(1p)0=(ab)/(a+b)E[X_T]=p*1+(1-p)0=(a-b)/(a+b)。所以始终保持领先的概率为(ab)/(a+b)(a-b)/(a+b)

Remark

从上面的两个例子可以看出,停时定理的应用主要是想办法构造一个鞅,使得我们感兴趣的事件刚好可以成为我们构造的鞅的一个停时(并且往往需要满足停时定理的应用条件)。在此基础上,可以快速得到期望,再配合对时间得分析从概率入手计算这个期望,得到一个关于概率的方程,从而求解概率。不过也可以看到,构造一个合适的鞅也太复杂了。尤其是eg2,反向然后关于自身是鞅这怎么可能想的出来。。。

Wald等式

X1,...X_1,...是一系列独立同分布的随机变量,并且T是这个序列的一个停时。如果T和X存在有限期望,那么E[i=1TXi]=E[T]E[X]E[\sum_{i=1}^T X_i]=E[T]E[X]

证明:构造一个关于X的鞅Zi=j=1i(XjE[X])Z_i=\sum_{j=1}^i (X_j-E[X])。为啥是鞅就不再证了
因为E[T]E[T]有界并且E[Zi+1ZiX1,...,Xi]=E[Xi+1E[X]X1,...,Xi]=E[Xi+1E[X]]2E[X]E[|Z_{i+1}-Z_i||X_1,...,X_i]=E[|X_{i+1}-E[X]|X_1,...,X_i]=E[|X_{i+1}-E[X]|]\le 2E[X]有界,所以满足停时定理条件3
因此E[ZT]=E[Z1]=0E[Z_T]=E[Z_1]=0
E[ZT]E[Z_T]展开写,重新整理可以得证。

eg 随机数量骰子求和

先扔一枚骰子,设点数为N,再扔N枚骰子,后面这N枚求和的期望是多少。

设停时T为N,很明显T只和第一枚骰子相关。因此是一个停时。所以E[i=1NXi]=E[N]E[X]=49/4E[\sum_{i=1}^N X_i]=E[N]E[X]=49/4

尾部不等式

Azuma-Hoeffding不等式

和前面的证明很类似,利用了指数的下凸性。

Z0,..,ZnZ_0,..,Z_n是一个鞅,满足ZkZk1ck|Z_k-Z_{k-1}|\le c_k,那么t1,λ>0\forall t\ge 1, \lambda > 0,有Pr[XtX0λ]2eλ2/(2k=1tck2)\Pr[|X_t-X_0|\ge \lambda]\le 2e^{\lambda^2/(2\sum_{k=1}^t c_k^2)}

更近的bound同时利用了下界。即设Z0,..,ZnZ_0,..,Z_n是一个鞅,满足BkZkZk1Bk+dkB_k \le |Z_k-Z_{k-1}|\le B_k+d_k,那么有Pr[XtX0λ]2e2λ2/(2k=1tdk2)\Pr[|X_t-X_0|\ge \lambda]\le 2e^{-2\lambda^2/(2\sum_{k=1}^t d_k^2)}

McDiarmid不等式

Pr[f(X1,...,Xn)E[f(X1,...,Xn)]λ]2e2λ2/(nc2)\Pr[|f(X_1,...,X_n)-E[f(X_1,...,X_n)]|\ge \lambda]\le 2e^{-2\lambda^2/(nc^2)},

其中X1,...XnX_1,...X_n是一系列独立的随机变量,而f满足c-李比希茨条件。即固定其他变量,只变化一个变量,函数值的变化幅度不超过c。