携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情
通常,假设分布时给出分布的参数。 如果无法给出这些参数,则必须从样本中估算出来。 这里,对于卡方分布每一个参数被估计就意味着丢失一个自由度。因此对于w个被估计参数卡方分布具有m-w-1自由度。对于正态w=2,如果期望值和方差被估计。
最小预期频数:
为了能将检验统计量视为近似卡方分布,每个预期频数必须有一个特定的最小值。 各种教科书使用1或5作为最小值。 如果预期频数太小,则可以在给定情况下聚合多个类以实现最小尺寸。
例子:用卡方分布进行分布测试
给定大约200家上市公司的销售额。 下面的直方图显示了它们的分布。(under)
假设随机变量X是公司销售额。现在我们来检验X是正态分布的假设。
由于数据有许多不同的阶段,因此它们可被分为几个级别。 具体如下表:
| 级别 | 区间 | 观测到的频数 | |
|---|---|---|---|
| j | über | bis | nj |
| 1 | … | 0 | 0 |
| 2 | 0 | 5000 | 148 |
| 3 | 5000 | 10000 | 17 |
| 4 | 10000 | 15000 | 5 |
| 5 | 15000 | 20000 | 8 |
| 6 | 20000 | 25000 | 4 |
| 7 | 25000 | 30000 | 3 |
| 8 | 30000 | 35000 | 3 |
| 9 | 35000 | ... | 9 |
| Sum | 197 |
由于未指定参数,因此可依据样本对它们进行估算。(也即样本均值和样本方差)
通过上面的数据我们可以给出完整的零假设H0:
H0:X是带有预期值μ= 6892和标准偏差σ= 14984的正态分布。为了确定在零假设H0下的预期频数,首先计算X落在给定类别内的概率。计算过程为:
类似地还可以计算:
从中可以得出所有的预期频数:
也就说,如果特征销售额的确是正态分布,那么大约25家公司的平均销售额必须在0到5,000欧元之间。
预期频数与观察到的频数一起在下列表格中列出。
| 类别(级别) | 区间 | 被观测到频数(实际频数) | 概率 | 预期频数 | |
|---|---|---|---|---|---|
| j | 从 | 到 | nj | p0j | n0j |
| 1 | … | 0 | 0 | 0,3228 | 63,59 |
| 2 | 0 | 5000 | 148 | 0,1270 | 25,02 |
| 3 | 5000 | 10000 | 17 | 0,1324 | 26,08 |
| 4 | 10000 | 15000 | 5 | 0,1236 | 24,35 |
| 5 | 15000 | 20000 | 8 | 0,1034 | 20,36 |
| 6 | 20000 | 25000 | 4 | 0,0774 | 15,25 |
| 7 | 25000 | 30000 | 3 | 0,0519 | 10,23 |
| 8 | 30000 | 35000 | 3 | 0,0312 | 6,14 |
| 9 | 35000 | … | 9 | 0,0303 | 5,98 |
| Summe | 197 | 1,0000 | 197,00 |
根据上面的信息按照公式(k-1)统计量计算如下:
人们可以得出。总体的’销售额 ’特征不是正态分布。