非相关测试特点

119 阅读2分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情

非相关检验是列联表中随机非相关性的显着性检验。观察两个统计特征X和Y,它们可以取任意值。 人们想了解这些特征是否是随机独立。 为此我们构造出如下零假设。

H0:特征X和Y是随机不相关的。****

X的观察值可分为m个类别j(j = 1,... m),特征Y的观察值可分为r个类别k(k = 1,...,r)。如果在一个特征中出现很多特征值,那么人们可以方便地把这些值总结成j(=1,...,m)个级别,并且把各级别成员理解为对应的J类(=1,...,m)成员。

从概念上讲,该测试的理解如下:

考虑两个离散随机变量X和Y,其共同概率可以在概率表中表示。

现在计算X的属于第j个类的特征值与Y的属于第k个类的特征值一起出现的频数。(计数频数观察值,计算频数期望值)观察到的X,Y共同绝对频数njk可以登记到具有m行和r列的二维频数表中。

图片.png

行或列的总和给出绝对边际频率nj.或n.k。

图片.png

我们知道:假设A,B两个事件是随机不相关的,那么下列等式有效:

图片.png

现在假设X,Y随机不相关的,那么我们可以得到与上面类似的结论。

图片.png

两边同n相乘得:

图片.png

如果这些差异对所有j,k的都很小,那么人们可以推测X和Y的确是随机独立(不相关的)的。

在X,Y独立的情况下,如果人们利用下面的等式计算期望的频数

图片.png

经过上面的思考,最终得到独立性(非相关性)测试的检验统计量:

图片.png

如果预期频数n*jk足够大的话,检验统计量可近似地被看做具有(m-1)(r-1)个自由度的卡方分布。

如果检验统计量很小,则认为该假设是正确的。也就是说,假如检验统计量的值较大,H0会被拒绝,H0的拒绝域位于右侧。