充分统计量

定义：对于一个分布族 $\{P_\theta: \theta \in |\Theta\}$ ，样本 $x_1,...,x_n$ 。如果统计量 $t$ 可以让分布 $F(x_1,...,x_n|t)$ 与 $\theta$ 无关，那么 $t$ 是充分统计量。
判定（Fisher准则）：样本的联合分布可以分解为 $p(x,\theta)=g(T(x), \theta)h(x)$

重要分布

$\chi^2$ 分布

n个iid的标准正态分布的平方和， $\chi^2(n)$ ，pdf为 $f(x)=\frac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{-x/2} (x>0)$ 。其实就是 $\Gamma(n/2,1/2,x)$

期望为 $n$ ，方差为 $2n$

可加性： $\chi^2(n_1)+\chi^2(n_2)=\chi^2(n_1+n_2)$

t分布

$X~N(0,1), Y~\chi^2(n)$ ，两者独立，那么 $T=X/\sqrt{Y/n}$ 服从 $t(n)$ ，pdf: $f(t)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(n/2)}(1+\frac{t^2}{n})^{-\frac{n+1}{2}}$

F分布

$X~\chi^2(n_1), Y~\chi^2(n_2), F=\frac{X/n_1}{Y/n_2}$

$\frac{(n-1)S^2}{\sigma^2}~\chi^2(n-1)$

其他分布

负二项分布

n次iid伯努利实验，执行到x时，出现了 $r$ 次成功的概率。 $Pr[x]=C_{x-1}^{r-1}p^r(1-p)^{x-r}$

拉普拉斯分布

也叫双指数分布， $f(x)=\frac{1}{2b}e^{-\frac{|x-\mu|}{b}}$ ，相当于把指数分布向左平移 $\mu$ 然后保留右侧对称过去，再重新归一化。

Gamma分布

首先简单回忆指数分布 $f(x)=\theta e^{-\theta x}$ ，期望和方差分别为 $\theta, \theta^2$ 。他说明的是一个时间发生之前经过时间的分布。

接下来有两个方向思考：

一个是在一段时间里到底发生了多少次-这是poisson分布。概率里讲了
另一个是一系列iid的指数分布时间发生的总时间，这就是Gamma分布

这个证明可以用归纳法，但过于考察积分技巧，如果已经知道了分布，那可以利用矩母函数来证明会简单很多。

首先需要知道gamma函数

\Gamma(\alpha)=\int_0^\infty x^{\alpha-1}e^{-x}dx

这个函数的性质：

$\Gamma(1)=1$

这很明显
$\Gamma(\alpha + 1)=\alpha \Gamma(\alpha)$

分部积分，把 $e^{-x}$ 看作导数，注意 $e^{-x}$ 的原函数是 $-e^{-x}$ ，在分布积分的第二项中符号会变。
$\Gamma(n+1)=n!$

整数情况，是前一种的特殊情况。
$\Gamma(1/2)=\sqrt{\pi}$

积分换元令 $x=t^2$ 把前面指数的1/2消掉，然后求积分的平方，转化成二元积分，极坐标换元。

接下来就是gamma分布

\Gamma(\alpha, \beta, x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}

其实， $\alpha$ 就是指数分布的个数， $\beta$ 就是指数分布的 $\theta$ ，所以期望和方差符合直觉的分别为 $\alpha/\beta, \alpha/\beta^2$ ， $\alpha=1$ 的时候恰好就是指数分布，而且他甚至不局限于整数个指数分布。。。

Beta分布

从二项分布而来，回顾 $n$ 次实验，成功概率为 $p$ ，那么成功 $a$ 次的概率为 $Pr[X=a]=C_n^a p^a(1-p)^{n-a}$

现在反向问一个问题，假设做了 $n$ 次实验，发现成功了 $a$ 次失败了 $b=n-a$ 次， $p$ 是多少？ $p$ 可以是一个数值，但是Bayesian学派会认为这个概率本身未必是数值，应该也是一个分布。这就是beta分布，即二项实验可能概率的概率分布。

既然 $p$ 是未知量了，那么 $f(p)=C_n^a p^a(1-p)^b$ ，组合数系数没有 $p$ ，另外 $f(p)$ 是概率密度所以需要归一化，因此我们重新设一个系数， $f(p)=Kp^a(1-p)^{b}$ ，然后归一化 $\int_0^1 f(p)dp=1$ ，可以得到系数 $K=\frac{1}{\int_0^1 p^a(1-p)^bdp}$ 。

我们令分母 $\Beta(a,b)=\int_0^1 p^a(1-p)^bdp$ 。这个积分是多少？这里有一个很巧妙的小球模型来求解（ref: zhuanlan.zhihu.com/p/69606875）

现在0-1区间扔一个红球等概率落在任意位置 $p$ ，然后再扔n个白球也是均匀的，此时落在左侧白球的数量 $X$ 满足 $Pr[X=k|p]=C_n^k p^k(1-p)^{n-k}$ ，积分去掉条件，可得

Pr[X=k]=\int_0^1 C_n^kp^k(1-p)^{n-k}\cdot 1 dp=C_n^k \Beta(a, n-k)

从另一个视角看，如果是一股脑扔出 $n+1$ 个球，那么 $X=k$ 的意思就是从 $n+1$ 个球里选第 $k+1$ 个当红球。因为都是均匀分布，所以等可能，因此 $Pr[X=k]=\frac{1}{n+1}$ ，所以结合上面的公式

C_n^k \Beta(k, n-k)=\frac{1}{n+1}

因此 $\Beta(k,n-k)=\frac{k!(n-k)!}{(n+1)!}$ ，重新令 $a=k,b=n-k,n=a+b$ ，那么有

\Beta(a,b)=\frac{a!b!}{(a+b+1)!}=\frac{\Gamma(a+1)\Gamma(b+1)}{\Gamma(n+2)}

重新换元一下，得到最经典的beta函数公式

\Beta(\alpha, \beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}

所以相应的Beta分布为

f(x)=\frac{1}{\Beta(\alpha, \beta)}x^{\alpha-1}(1-x)^{\beta-1}

期望和方差很容易计算，因为乘 $x$ 和 $x^2$ 的积分恰好就是 $\Beta(\alpha+1, \beta)$ 和 $\Beta(\alpha+2, \beta)$

9 统计基础