9 统计基础

171 阅读3分钟

充分统计量

  • 定义:对于一个分布族{Pθ:θΘ}\{P_\theta: \theta \in |\Theta\},样本x1,...,xnx_1,...,x_n。如果统计量tt可以让分布F(x1,...,xnt)F(x_1,...,x_n|t)θ\theta无关,那么tt是充分统计量。

  • 判定(Fisher准则):样本的联合分布可以分解为p(x,θ)=g(T(x),θ)h(x)p(x,\theta)=g(T(x), \theta)h(x)

重要分布

χ2\chi^2分布

n个iid的标准正态分布的平方和,χ2(n)\chi^2(n),pdf为f(x)=12n/2Γ(n/2)xn/21ex/2(x>0)f(x)=\frac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{-x/2} (x>0)。其实就是Γ(n/2,1/2,x)\Gamma(n/2,1/2,x)

期望为nn,方差为2n2n

可加性:χ2(n1)+χ2(n2)=χ2(n1+n2)\chi^2(n_1)+\chi^2(n_2)=\chi^2(n_1+n_2)

t分布

X N(0,1),Y χ2(n)X~N(0,1), Y~\chi^2(n),两者独立,那么T=X/Y/nT=X/\sqrt{Y/n}服从t(n)t(n),pdf:f(t)=Γ(n+12)nπΓ(n/2)(1+t2n)n+12f(t)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(n/2)}(1+\frac{t^2}{n})^{-\frac{n+1}{2}}

F分布

X χ2(n1),Y χ2(n2),F=X/n1Y/n2X~\chi^2(n_1), Y~\chi^2(n_2), F=\frac{X/n_1}{Y/n_2}

(n1)S2σ2 χ2(n1)\frac{(n-1)S^2}{\sigma^2}~\chi^2(n-1)

其他分布

负二项分布

n次iid伯努利实验,执行到x时,出现了rr次成功的概率。 Pr[x]=Cx1r1pr(1p)xrPr[x]=C_{x-1}^{r-1}p^r(1-p)^{x-r}

拉普拉斯分布

也叫双指数分布,f(x)=12bexμbf(x)=\frac{1}{2b}e^{-\frac{|x-\mu|}{b}},相当于把指数分布向左平移μ\mu然后保留右侧对称过去,再重新归一化。

Gamma分布

首先简单回忆指数分布f(x)=θeθxf(x)=\theta e^{-\theta x},期望和方差分别为θ,θ2\theta, \theta^2。他说明的是一个时间发生之前经过时间的分布。

接下来有两个方向思考:

  • 一个是在一段时间里到底发生了多少次-这是poisson分布。概率里讲了
  • 另一个是一系列iid的指数分布时间发生的总时间,这就是Gamma分布

这个证明可以用归纳法,但过于考察积分技巧,如果已经知道了分布,那可以利用矩母函数来证明会简单很多。

首先需要知道gamma函数

Γ(α)=0xα1exdx\Gamma(\alpha)=\int_0^\infty x^{\alpha-1}e^{-x}dx

这个函数的性质:

  • Γ(1)=1\Gamma(1)=1

    这很明显

  • Γ(α+1)=αΓ(α)\Gamma(\alpha + 1)=\alpha \Gamma(\alpha)

    分部积分,把exe^{-x}看作导数,注意exe^{-x}的原函数是ex-e^{-x},在分布积分的第二项中符号会变。

  • Γ(n+1)=n!\Gamma(n+1)=n!

    整数情况,是前一种的特殊情况。

  • Γ(1/2)=π\Gamma(1/2)=\sqrt{\pi}

    积分换元令x=t2x=t^2把前面指数的1/2消掉,然后求积分的平方,转化成二元积分,极坐标换元。

接下来就是gamma分布

Γ(α,β,x)=βαΓ(α)xα1eβx\Gamma(\alpha, \beta, x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}

其实,α\alpha就是指数分布的个数,β\beta就是指数分布的θ\theta,所以期望和方差符合直觉的分别为α/β,α/β2\alpha/\beta, \alpha/\beta^2α=1\alpha=1的时候恰好就是指数分布,而且他甚至不局限于整数个指数分布。。。

Beta分布

从二项分布而来,回顾nn次实验,成功概率为pp,那么成功aa次的概率为Pr[X=a]=Cnapa(1p)naPr[X=a]=C_n^a p^a(1-p)^{n-a}

现在反向问一个问题,假设做了nn次实验,发现成功了aa次失败了b=nab=n-a次,pp是多少?pp可以是一个数值,但是Bayesian学派会认为这个概率本身未必是数值,应该也是一个分布。这就是beta分布,即二项实验可能概率的概率分布

既然pp是未知量了,那么f(p)=Cnapa(1p)bf(p)=C_n^a p^a(1-p)^b,组合数系数没有pp,另外f(p)f(p)是概率密度所以需要归一化,因此我们重新设一个系数,f(p)=Kpa(1p)bf(p)=Kp^a(1-p)^{b},然后归一化01f(p)dp=1\int_0^1 f(p)dp=1,可以得到系数K=101pa(1p)bdpK=\frac{1}{\int_0^1 p^a(1-p)^bdp}

我们令分母B(a,b)=01pa(1p)bdp\Beta(a,b)=\int_0^1 p^a(1-p)^bdp。这个积分是多少?这里有一个很巧妙的小球模型来求解(ref: zhuanlan.zhihu.com/p/69606875)

现在0-1区间扔一个红球等概率落在任意位置pp,然后再扔n个白球也是均匀的,此时落在左侧白球的数量XX满足Pr[X=kp]=Cnkpk(1p)nkPr[X=k|p]=C_n^k p^k(1-p)^{n-k},积分去掉条件,可得

Pr[X=k]=01Cnkpk(1p)nk1dp=CnkB(a,nk)Pr[X=k]=\int_0^1 C_n^kp^k(1-p)^{n-k}\cdot 1 dp=C_n^k \Beta(a, n-k)

从另一个视角看,如果是一股脑扔出n+1n+1个球,那么X=kX=k的意思就是从n+1n+1个球里选第k+1k+1个当红球。因为都是均匀分布,所以等可能,因此Pr[X=k]=1n+1Pr[X=k]=\frac{1}{n+1},所以结合上面的公式

CnkB(k,nk)=1n+1C_n^k \Beta(k, n-k)=\frac{1}{n+1}

因此B(k,nk)=k!(nk)!(n+1)!\Beta(k,n-k)=\frac{k!(n-k)!}{(n+1)!},重新令a=k,b=nk,n=a+ba=k,b=n-k,n=a+b,那么有

B(a,b)=a!b!(a+b+1)!=Γ(a+1)Γ(b+1)Γ(n+2)\Beta(a,b)=\frac{a!b!}{(a+b+1)!}=\frac{\Gamma(a+1)\Gamma(b+1)}{\Gamma(n+2)}

重新换元一下,得到最经典的beta函数公式

B(α,β)=Γ(α)Γ(β)Γ(α+β)\Beta(\alpha, \beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}

所以相应的Beta分布为

f(x)=1B(α,β)xα1(1x)β1f(x)=\frac{1}{\Beta(\alpha, \beta)}x^{\alpha-1}(1-x)^{\beta-1}

期望和方差很容易计算,因为乘xxx2x^2的积分恰好就是B(α+1,β)\Beta(\alpha+1, \beta)B(α+2,β)\Beta(\alpha+2, \beta)