分布测试携手创作，共同成长！这是我参与「掘金日新计划 · 8 月更文挑战」的第1天，点击查看活动详情给定一个统计学特征

携手创作，共同成长！这是我参与「掘金日新计划 · 8 月更文挑战」的第1天，点击查看活动详情

给定一个统计学特征X，它在总体中的概率未知。关于X的概率，一个暂时的普通表达的0假设是：

H0：特征X拥有概率分布

测试过程：

给定特征X的n个独立的观测值x1，...，xn，它们分为m个不同的类别。如果在一个特征中出现许多特征值，这样人们可以把它们合理地概括成m个等级，并把这些等级理解成类别。第j类中的观测值数是观测频数Nj。

如果X的确具有假设的分布，那么现在考虑在一个类别必须平均拥有多少个观察值。为此，首先计算X的一个特征值落入类别j的概率p0j。在H0假设下预期的绝对频数是：

图片.png

如果在当前样本中观察到的频数Nj偏离预期频数“太多”，则拒绝零假设。

与此相关的检验统计量为：

。（K-1）

图片.png 它可以测量这种偏差的大小。

在Nj足够大的情况下，检验统计量近似具有m-1个自由度的卡方分布。如果零假设为真，则观察到的和理论上预期的频数之间的差异应该很小。所以说当检验统计量的值很大时0假设会被拒绝。也就是说拒绝零假设H0的区域位于右侧。（右侧检验）

特点：

分布参数估计：

通常，假设分布时给出分布的参数。如果无法给出这些参数，则必须从样本中估算出来。这里，对于卡方分布每一个参数被估计就意味着丢失一个自由度。因此对于w个被估计参数卡方分布具有m-w-1自由度。对于正态w=2，如果期望值和方差被估计。

最小预期频数：

为了能将检验统计量视为近似卡方分布，每个预期频数必须有一个特定的最小值。各种教科书使用1或5作为最小值。如果预期频数太小，则可以在给定情况下聚合多个类以实现最小尺寸。