估计

点估计

频率替换与矩估计这个很简单，就是用 $\sum_i x_i^k$ 来估计k阶矩，然后期望和方差可以用矩来表示。从而计算。
问题是没有利用分布信息。
MLE 利用似然函数（联合概率关于参数的函数），求函数极值点，得到参数值。拉格朗日乘数法。

如何评估

最小均方误差准则，即 $MSE_\theta=E_\theta[(T(x)-q(\theta))^2]$ ，在误差有限的情况下，导出

MSE_\theta=Var[T(x)]+b(T(x), \theta)

即，误差=方差+偏差。对于无偏估计。最理想情况是能够找误差最小的估计，但如果不划定范围，要求估计对任意的参数 $\theta$ 取值都可以最小，这种估计并不存在，因此我们引入无偏估计，来缩小估计范围。试图在无偏估计中寻找能够让MSE最小的估计。所谓无偏估计就是 $E[T(x)]=q(\theta)$ ，在无偏估计的前提下，MSE就只有方差这一项了，所以最小MSE就是最小方差，这就是最小方差无偏估计，当然由于不知道 $\theta$ 具体是多少，所以必须保证不论 $\theta$ 具体是多少，估计都是最小方差，这就是一致性，因此我们有了一致最小方差无偏估计（UMVUE），即在无偏的前提下，不论 $\theta$ 为何值始终保证方差最小的估计。有关理论研究证明了何种情况下存在并且如果存在就唯一（这个性质不错），但是这些理论依然不好计算。为了计算产生了一系列定理作为支撑，这里都省略，计算过程如下

1 找到完全充分统计量

把样本的联合概率分布拆分： $p(x_1,...,x_n;\theta)=c(\theta)h(x_1,...,x_n)exp\{w(\theta)T(x_1,...,x_n)\}$ ，然后 $w$ 的值域有内点，那 $T$ 就是完全充分统计量
2 对T求期望，并适当调整使其无偏。

信息量与信息不等式

衡量了样本对参数估计的信息贡献程度。方法是考察了对数似然函数的在极值点的陡峭程度，越陡峭则越有可能是最大值。 $I(\theta)=E_\theta[\frac{\partial \ln p(x;\theta)}{\partial \theta}]^2=-E[\frac{\partial^2 \ln p(x;\theta)}{\partial \theta^2}]$

如果样本独立，那么 $I(\theta)=nI_i(\theta)$

C-R下界：理论上的最优估计

对于C-R正则族， $Var_\theta[T]\ge \frac{[E_\theta (T)]^2}{nI(\theta)}$ ，即最小方差最小就到这个程度了，不过UMVUE不一定保证达到这个下界。达到了就是有效估计

为了进一步放松以寻求更多的估计可能，引入了渐进的概念，渐近无偏，渐进有效，即随着样本数量趋于无穷，估计的极限为期望或者方差的极限为CR下界。

相合估计

研究在n趋于无穷时估计的收敛性，挺简单。

区间估计

轴枢变量法，把随机变量转化成正态、t、F、 $\chi^2$ ，然后区间就可以查分位点概率表确定了。

假设检验

假设检验可以分为以下几个步骤

1 设立原假设与被择假设 $H_0, H_1$
2 设立相应的拒绝域 $W$ 与接受域 $W^c$ ，注意这里只是域，并没有设置概率阈值
3 构建势函数

弃真错误概率 $\alpha(\theta)$ 表示参数处于原假设时样本形成的估计落在了拒绝域
存伪错误概率 $\beta(\theta)$ 表示参数处于被择假设时样本形成的估计落在了接受域
相应的， $\gamma(\theta)=1-\beta(\theta)$ :即原假设不成立且拒绝了原假设
势函数：落在接受域取 $\alpha$ ，落在拒绝域取 $\gamma$
4 寻找概率阈值

因为 $\alpha$ 和 $\beta$ 存在trade-off，你越想拒绝，确实降低了存伪的概率，但弃真错误概率就会升高（误伤友军）。所以通常使用N-P准则，在固定 $\alpha$ 不超过某个指定数值的情况下（0.05、0.1），最小化第二类错误概率。这样对于给定的 $\alpha$ ，我们可以求出step2的域的分界点具体是多少。

上述方法显然有个问题，就是 $\alpha$ 的设置很主观，而不同的alpha会改变人们对弃真错误的容忍度，较低的alpha导致较低的容忍度，从而使存伪的可能升高，导致该拒绝的不拒绝。反之，该不拒绝的又拒绝了。所以引入p-值，代替认为设置的alpha。所谓p-值就是能够拒绝原假设的最小显著性水平。即对于 $Pr[\theta \in W]<p$ ，其实可以得到step2中的域的分界位置随 $p$ 的变化关系，不断降低p，更容易弃真，拒绝域越来越大，直至统计量也落在拒绝域里了。这就是检验统计量能够做出拒绝原假设的最小显著性水平。如果p再小，统计量也没办法区分显著性了，因为他已经被拒绝域囊括了。

一致最优势检验UMPT

对于类型为 $H_0: \theta\le \theta_0, H_1: \theta >\theta_0$ 的假设检验问题, 把联合密度拆分成 $p(x;\theta)=d(\theta)h(x_1,...,x_n)exp\{c(\theta)T(x)\}$ ，且 $c(\theta)$ 严格单调增，那么水平为 $\alpha$ 的检验存在UMPT，检验函数为

\phi(x)=0 (T(x)<c), 1 (T(x) > c), \frac{\alpha-Pr[T(x)>c]}{Pr[T(x)=c]} (T(x)=c)

其中 $c$ 要满足 $E[\phi(x)]=\alpha$

对于 $H_0: \theta= \theta_0, H_1: \theta >\theta_0$ 也完全一样，对于其他情况，可以增加符号进行转换。

10 估计与检验

估计

点估计