假设检验

1,091 阅读4分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

P:硬币是均匀的。 Q:在 100 次投掷中,得到 90 次正面,10 次反面。

H0:硬币是均匀的 (P) Ha:硬币是有偏的 (NOT P) 其中,P 是原假设 H0,NOT P 是备择假设 Ha

在搜集数据之前,我们把想证明的结论写成备择假设,把想拒绝的结论写成原假设。之所以写成这个形式,因为从上面不厌其烦的讨论中得知,这是方便逻辑 / 统计推断的形式:当我们难以拒绝原假设时,只能得到结论,原假设也许是真的,现在还不能拒绝它;而当我们能够拒绝原假设时,结论是:它就很有把握是不真的。

在确定假设检验的形式的同时,我们对之前一直随意说的 “把握”、“可能” 也做一个限定,即指定一个显著性水平α(significance level),也叫犯第一类错误的概率(type I error,在上面的硬币实验中,就是否定一个均匀硬币的错误,也叫 “弃真” 错误)。

根据某些保守或稳健的原则(比如,我们认为,把一个无辜的人判决为有罪,比放掉一个有罪的人,后果更为严重),我们要尽量把犯 “弃真” 错误的概率控制在一个很小的水平里。通常α=0.05,这时候就是说,如果拒绝了原假设,你就有 95% 的把握说原假设是不真的。这里,95%(=1-α)就是置信水平(confidence level)。

又,放掉一个有罪的人,即把一个有罪的人判为无罪,这犯的是第二类错误β(type II error,在硬币实验中,就是把一个有偏的硬币当成均匀硬币的错误,也叫 “取伪” 错误)。关于第一类和第二类错误之间的权衡取舍(trade off),详见《决策与风险》。在我们的假设检验里,我们认为犯一类错误的后果比犯第二类错误的后果更为严重。

需要注意的是,在这里,我强调的是先提出需要检验的假设,然后再搜集收据。这是统计推断的原则之一。如果看到了数据之后再提出假设,你几乎可以得到所有你想要的结果,这是不好的机会主义的倾向。强调这些,是因为在学校里,我们大多是看了别人搜集好的数据之后再做统计练习。

事先确定好你想拒绝 / 证明的假设,在看到数据之前,你不知道结果如何。

P值

上面提到 “极端” 事件,比如,在 100 次硬币投掷实验中,观察到出现 90 次正面,10 次反面(Q)。怎么样的事件才是 “极端的”?简单地说,一个事件很极端,那么少比它本身“更极端” 的事件就非常少(比如,只有 “91 次正面,9 次反面”、“91 次反面,9 次正面” 等情况才比它更极端)。

但这个 Q 只是从一次实验中得出的。我们可以重复做这个实验,比如 100 次,每次都投掷 100 次,记录下的正面数 X,它构成一个二项分布,X~B(n,p),其中,n=100,p=0.5。根据某个中心极限定理,正态分布是二项分布的极限分布,上面的二项分布可以由均值为 np=50,方差为 np(1-p)=25 的正态分布来近似。我们在这个近似的正态分布的两端来考察所谓 “更极端” 的事件,那就是正面数大于 90 或者小于 10。

重复一遍,“P 值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率”。如果 P 值很小,就表明,在原假设为真的情况下出现的那个分布里面,只有很小的部分,比出现的这个事件(比如,Q)更为极端。没多少事件比 Q 更极端,那就很有把握说原假设不对了。

在上述近似的正态分布中,P 值就等于 X<10 或 X>90 的概率值(记做,P{X<10 或 X>90})。根据对称性,这个概率值等于 2*P{X<10}=1.2442E-15。

上面我们的确求出了一个非常小的 P 值,但如何不含糊地确定它就是很 “极端” 呢? 事先确定的显著性水平α,本身就是一个判定法则。只要 P 值小于显著性水平α,我们就认为,在认为原假设为真的情况下出现的事件 Q,是如此地极端,以至于我们不再相信原假设本身。一句话,我们的判定法则是:

  • P 值小于显著性水平α,拒绝原假设。

参考

cosx.org/2010/11/hyp…