t检验介绍

140 阅读3分钟

“我正在参加「掘金·启航计划」”

假设检验(t检验)

 假设检验的目的是通过构造检验统计量来判断原假设是否正确,常用的原假例如(μ1>μ2,μ1=μ2\mu_1>\mu_2,\mu_1=\mu_2),和原假设对应的为备择假设(μ1μ2,μ1μ2\mu_1\leq \mu_2,\mu_1\neq \mu_2)。通常而言,原假设为保守的一方,备择假设为激进的一方1,也就是题设中给出的、需要去验证的是备择假设,我们通过证明原假设的过于“不可能”, 从而来证明备择假设的正确性。

原假设与备择假设

假设检验的核心思路就是构建统计量,通过证明该统计量符合原假设的可能性微乎其微来支持备择假设2举例而言,假设工厂要求生成产品的质量不小于100g,现从某批次中随机抽取了10个,需要判断这批产品是否符合要求,假定产品的质量符合均值为100,方差为4的正态分布。
 在这样一个问题,我们希望得到的结果是产品的质量大于100g,因此原假设H0H_0为:产品的质量小于均值100,备择假设H1H_1为:产品的质量大于等于均值100。假设检验的原理要求我们证明H0H_0是不太可能发生的,为此我们可以构建检验统计量T=n(Xˉμ)σT=\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma},其中Xˉ=1ninxi\bar{X}=\frac{1}{n}\sum^n_{i}x_iμ\mu为总体的均值,从而在样本属于总体的情况下有TN(0,1)T\sim N(0,1)(实际上我们基于的假设是产品的质量等于均值100,这一点还没想好怎么去解释)。  统计量构造完成后,我们计算出此次样本的观测值t=10(110i=110xi100)2t=\frac{\sqrt{10}(\frac{1}{10}\sum_{i=1}^{10}x_i-100)}{2},这个观测值tt反映除了原假设的离谱程度。倘若计算出的tt远大于0,对应的ppP(t)=0.001P(t)=0.001,那就说明在以0.001的概率出现的样本均值减去总体均值大于tt的事件都已发生,原假设自然是不合理的,从而支持备择假设。而为了衡量说多小概率的事件发生,我们才能认为原假设是不合理的,存在显著性水平参数α\alpha,它表明了当观测时间发生对应的小概率程度小于α\alpha时,我们拒绝原假设,支持备择假设。  以1中为例,在原假设为真的情况下,我们观测到了一个出现概率为0.0062的“不可能事件”,那么我们只能拒绝原假设。

t检验

 t检验3实际上就是假设检验的一种特殊情况,如果我们明确知道原始数据的分布是正态分布且知道均值和方差,那么直接构造标准正态分布检验统计量即可。但许多情况下虽然我们可以假定总体为正态分布,我们不知道其方差,因此使用其他方式来消去方差参数,构建t分布检验统计量。  t分布的构造定义为分子是标准正态分布,分母是卡方分布4除以其自由度开方,以此来消去未知的方差参数。标准正态分布自不必多说,卡方分布定义为多个正态分布样本的平方和i=1Kxi2,xiN(0,1)\sum_{i=1}^K x_i^2,x_i\sim N(0,1),其中KK为自由度。通过正态分布我们可以构建卡方分布, 由于正态分布的样本方差为s2=1n1i=1n(xiXˉ)2s^2=\frac{1}{n-1}\sum^n_{i=1}(x_i-\bar{X})^2,因此(n1)s2σ2χ2(n1)\frac{(n-1)s^2}{\sigma^2}\sim \chi^2(n-1)。从而在总体为正态分布的情况下,我们可以构造如下t分布:

n(Xˉμ)σ(n1)s2σ2n1=n(Xˉμ)st(n1)\frac{\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma}}{\sqrt{\frac{\frac{(n-1)s^2}{\sigma^2}}{n-1}}}=\frac{\sqrt{n}(\bar{X}-\mu)}{s}\sim t(n-1)

可以发现巧妙的消去了未知的σ\sigma参数。

参考

Footnotes

  1. 假设检验 2

  2. 假设检验及例题

  3. t检验

  4. 卡方分布