“我正在参加「掘金·启航计划」”
假设检验(t检验)
假设检验的目的是通过构造检验统计量来判断原假设是否正确,常用的原假例如(),和原假设对应的为备择假设()。通常而言,原假设为保守的一方,备择假设为激进的一方1,也就是题设中给出的、需要去验证的是备择假设,我们通过证明原假设的过于“不可能”, 从而来证明备择假设的正确性。
原假设与备择假设
假设检验的核心思路就是构建统计量,通过证明该统计量符合原假设的可能性微乎其微来支持备择假设。2举例而言,假设工厂要求生成产品的质量不小于100g,现从某批次中随机抽取了10个,需要判断这批产品是否符合要求,假定产品的质量符合均值为100,方差为4的正态分布。
在这样一个问题,我们希望得到的结果是产品的质量大于100g,因此原假设为:产品的质量小于均值100,备择假设为:产品的质量大于等于均值100。假设检验的原理要求我们证明是不太可能发生的,为此我们可以构建检验统计量,其中,为总体的均值,从而在样本属于总体的情况下有(实际上我们基于的假设是产品的质量等于均值100,这一点还没想好怎么去解释)。
统计量构造完成后,我们计算出此次样本的观测值,这个观测值反映除了原假设的离谱程度。倘若计算出的远大于0,对应的值,那就说明在以0.001的概率出现的样本均值减去总体均值大于的事件都已发生,原假设自然是不合理的,从而支持备择假设。而为了衡量说多小概率的事件发生,我们才能认为原假设是不合理的,存在显著性水平参数,它表明了当观测时间发生对应的小概率程度小于时,我们拒绝原假设,支持备择假设。
以1中为例,在原假设为真的情况下,我们观测到了一个出现概率为0.0062的“不可能事件”,那么我们只能拒绝原假设。
t检验
t检验3实际上就是假设检验的一种特殊情况,如果我们明确知道原始数据的分布是正态分布且知道均值和方差,那么直接构造标准正态分布检验统计量即可。但许多情况下虽然我们可以假定总体为正态分布,我们不知道其方差,因此使用其他方式来消去方差参数,构建t分布检验统计量。 t分布的构造定义为分子是标准正态分布,分母是卡方分布4除以其自由度开方,以此来消去未知的方差参数。标准正态分布自不必多说,卡方分布定义为多个正态分布样本的平方和,其中为自由度。通过正态分布我们可以构建卡方分布, 由于正态分布的样本方差为,因此。从而在总体为正态分布的情况下,我们可以构造如下t分布:
可以发现巧妙的消去了未知的参数。