19-20(1.2.2 期望和协方差)

347 阅读2分钟

1.2.2 期望和协方差

  涉及概率的最重要的操作之一是求函数的加权平均数。概率分布p(x)p(x)下的某些函数f(x)f(x)的平均值称为f(x)f(x)的期望值,用E[f]E[f]表示。对于离散分布,它由下式给出

E[f]=xp(x)f(x)(1.33)E[f]=\sum_xp(x)f(x)\tag{1.33}

因此,平均值由xx的不同值的相对概率加权。在连续变量的情况下,期望值表示为关于相应概率密度的积分

E[f]=p(x)f(x)dx(1.34)E[f]=\int p(x)f(x)dx\tag{1.34}

在这两种情况下,如果我们从概率分布或概率密度中得到有限数量的NN个点,那么期望值可以近似为这些点上的有限和

E[f]1Nn=1Nf(xn)(1.35)E[f]\simeq \frac{1}{N}\sum_{n=1}^Nf(x_n)\tag{1.35}

当我们在第11章讨论抽样方法时,我们将广泛使用这个结果。(1.35)中的近似值在极限NN\rightarrow\infty内变得精确。

  有时我们会考虑多个变量函数的期望值,在这种情况下,我们可以使用下标来指示哪个变量被平均,例如

Ex[f(x,y)](1.36)E_x[f(x,y)]\tag{1.36}

表示函数f(x,y)f(x,y)相对于xx的分布的平均值。注意,Ex[f(x,y)]E_x[f(x,y)]将是yy的函数。

  我们也可以考虑关于条件分布的条件期望,以便

Ex[f(y)]=xp(xy)f(x)(1.37)E_x[f(y)]=\sum_xp(x|y)f(x)\tag{1.37}

与连续变量的类似定义。

  f(x)f(x)的方差定义为

var[f]=E[(f(x)E[f(x)])2](1.38)var[f]=E[(f(x)-E[f(x)])^2]\tag{1.38}

并提供了一个测量值,即f(x)f(x)在其平均值E[f(x)]E[f(x)]周围有多少变化。扩大平方,我们可以看到方差也可以用f(x)f(x)f(x)2f(x)^2的期望值来表示

var[f]=E[f(x)2]E[f(x)]2(1.39)var[f]=E[f(x)^2]-E[f(x)]^2\tag{1.39}

特别是,我们可以考虑变量xx本身的方差,这是由

var[x]=E[x2]E[x]2(1.40)var[x]=E[x^2]-E[x]^2\tag{1.40}

  对于两个随机变量xxyy,协方差的定义如下:

cov[x,y]=Ex,y[{xE[x]}{yE[y]}]=Ex,y[xy]E[x]E[y](1.41)cov[x,y]=E_{x,y}[\{x-E[x]\}\{y-E[y]\}]=E_{x,y}[xy]-E[x]E[y]\tag{1.41}

表示xxyy一起变化的程度。如果xxyy​是独立的,那么它们的协方差就消失了。

  在随机变量xxyy的 两个向量的情况下,协方差是一个矩阵

cov[x,y]=Ex,y[{xE[x]}{yTE[yT]}]=Ex,y[xyT]E[x]E[yT](1.42)cov[x,y]=E_{x,y}[\{x-E[x]\}\{y^T-E[y^T]\}]=E_{x,y}[xy^T]-E[x]E[y^T]\tag{1.42}

如果我们考虑向量xx的分量之间的协方差,那么我们使用一个稍微简单的符号cov[x]cov[x,x]cov[x]\equiv cov[x,x]