分布测试

171 阅读2分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情

给定一个统计学特征X,它在总体中的概率未知。关于X的概率,一个暂时的普通表达的0假设是:

H0:特征X拥有概率分布

测试过程:

给定特征X的n个独立的观测值x1,...,xn,它们分为m个不同的类别。如果在一个特征中出现许多特征值,这样人们可以把它们合理地概括成m个等级,并把这些等级理解成类别。第j类中的观测值数是观测频数Nj。

如果X的确具有假设的分布,那么现在考虑在一个类别必须平均拥有多少个观察值。为此,首先计算X的一个特征值落入类别j的概率p0j。在H0假设下预期的绝对频数是:

图片.png

如果在当前样本中观察到的频数Nj偏离预期频数“太多”,则拒绝零假设。

与此相关的检验统计量为:

。(K-1)

图片.png 它可以测量这种偏差的大小。

在Nj足够大的情况下,检验统计量近似具有m-1个自由度的卡方分布。如果零假设为真,则观察到的和理论上预期的频数之间的差异应该很小。所以说当检验统计量的值很大时0假设会被拒绝。也就是说拒绝零假设H0的区域位于右侧。(右侧检验)

特点:

分布参数估计:

通常,假设分布时给出分布的参数。 如果无法给出这些参数,则必须从样本中估算出来。 这里,对于卡方分布每一个参数被估计就意味着丢失一个自由度。因此对于w个被估计参数卡方分布具有m-w-1自由度。对于正态w=2,如果期望值和方差被估计。

最小预期频数:

为了能将检验统计量视为近似卡方分布,每个预期频数必须有一个特定的最小值。 各种教科书使用1或5作为最小值。 如果预期频数太小,则可以在给定情况下聚合多个类以实现最小尺寸。