分布参数估计特点

116 阅读3分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情

通常,假设分布时给出分布的参数。 如果无法给出这些参数,则必须从样本中估算出来。 这里,对于卡方分布每一个参数被估计就意味着丢失一个自由度。因此对于w个被估计参数卡方分布具有m-w-1自由度。对于正态w=2,如果期望值和方差被估计。

最小预期频数:

为了能将检验统计量视为近似卡方分布,每个预期频数必须有一个特定的最小值。 各种教科书使用1或5作为最小值。 如果预期频数太小,则可以在给定情况下聚合多个类以实现最小尺寸。

例子:用卡方分布进行分布测试

给定大约200家上市公司的销售额。 下面的直方图显示了它们的分布。(under)

假设随机变量X是公司销售额。现在我们来检验X是正态分布的假设。

由于数据有许多不同的阶段,因此它们可被分为几个级别。 具体如下表:

级别区间观测到的频数
jüberbisnj
100
205000148
350001000017
410000150005
515000200008
620000250004
725000300003
830000350003
935000...9
Sum  197

图片.png

由于未指定参数,因此可依据样本对它们进行估算。(也即样本均值和样本方差)

通过上面的数据我们可以给出完整的零假设H0:

H0:X是带有预期值μ= 6892和标准偏差σ= 14984的正态分布。为了确定在零假设H0下的预期频数,首先计算X落在给定类别内的概率。计算过程为:

图片.png

类似地还可以计算:

图片.png

从中可以得出所有的预期频数:

图片.png

也就说,如果特征销售额的确是正态分布,那么大约25家公司的平均销售额必须在0到5,000欧元之间。

预期频数与观察到的频数一起在下列表格中列出。

类别(级别)区间被观测到频数(实际频数)概率预期频数
jnjp0jn0j
1000,322863,59
2050001480,127025,02
3500010000170,132426,08
4100001500050,123624,35
5150002000080,103420,36
6200002500040,077415,25
7250003000030,051910,23
8300003500030,03126,14
93500090,03035,98
Summe  1971,0000197,00

根据上面的信息按照公式(k-1)统计量计算如下:

图片.png

人们可以得出。总体的’销售额 ’特征不是正态分布。