Chi-Square测试的四个假设

227 阅读4分钟

独立性的Chi-Square检验用于确定两个分类变量之间是否存在显著关联。

这个测试有四个假设。

假设1:两个变量都是分类的。

假设两个变量都是分类的。也就是说,这两个变量所取的值都是名称或标签。

分类变量的例子包括。

  • 婚姻状况("已婚"、"单身"、"离异")。
  • 政治倾向("共和党"、"民主党"、"独立派")。
  • 吸烟状况("吸烟者","不吸烟者")。

假设2:所有观测值都是独立的。

假设数据集中的每个观测值都是独立的。也就是说,数据集中的一个观察值不会影响其他任何观察值。

假设3:或然率表中的单元格是互斥的。

假设个体只能属于或然率表中的一个单元。也就是说,表中的单元是相互排斥的--一个人不能属于多个单元。

假设4:至少80%的单元格的期望值为5或更大。

假设或然率表中至少80%的单元格的期望值为5或更大,并且没有单元格的期望值小于1。

下面的例子说明了如何在实践中检查这四个假设的每一个。

例子。检查Chi-Square检验的假设条件

假设我们想知道性别是否与政党偏好有关。

我们从500名选民中抽取一个简单的随机样本,调查他们的政党偏好。下表显示了调查的结果。

共和党人民主党独立党总计
男性1209040250
女性1109545250
共计23018585500

在进行独立性的Chi-Square检验之前,让我们验证一下检验的四个假设是否得到满足。

假设1:两个变量都是分类的。

这个假设很容易验证。我们可以看到,或然率表中的两个变量都是分类的。

  • 性别。这个变量只能有两个类别--男性或女性。
  • 政党偏好。该变量可以有三个类别--共和党、民主党或独立党。

假设2:所有观测值都是独立的。

检查这个假设的唯一方法是验证这个数据集中的每个人都是独立于其他每个人被调查的。

如果我们使用随机抽样方法(如简单随机抽样),那么这个假设很可能得到满足。

假设3:或然率表中的单元格是互斥的。

我们可以通过检查没有任何个体被计入一个以上的单元格来验证这一假设是否得到满足。

假设数据集中的每个人都只被调查过一次,这个假设应该得到满足,因为一个人不可能同时是男性共和党人和_女性_民主党人。

假设4:至少80%的单元格的期望值应该是5或更大。

我们可以使用下面的公式来计算或然率表中每个单元格的期望值。

期望值=(行和*列和)/表和。

例如,男性共和党人的预期值是。(230*250) / 500 = 115.

我们可以重复这个公式来获得表中每个单元格的期望值。

共和党人民主党人独立人士总数
男性11592.542.5250
女性11592.542.5250
共计23018585500

我们可以看到,表中没有一个单元格的预期值小于5,所以这个假设得到了满足。

一旦我们验证了四个假设得到满足,我们就可以用这个计算器来进行独立度的Chi-Square检验。

检验的p值是0.649198。由于这个p值不小于0.05,我们没有足够的证据说性别和政党偏好之间存在关联。

其他资源

下面的教程解释了如何在不同的统计软件中进行独立的Chi-Square检验。

如何在Excel中进行独立性的齐次检验
如何在R中进行独立性的齐次检验
如何在Python中进行独立性的齐次检验
如何在SPSS中进行独立性的齐次检验
在线独立性的齐次检验计算器

The post TheFour Assumptions of a Chi-Square Testappeared first onStatology.