范围与四分位数范围。有什么区别?

680 阅读3分钟

在统计学中,范围四分位数范围是衡量数据集中数值分布的两种方法。

范围衡量的是数据集中最小值和最大值之间的差异。

四分位数范围衡量的是数据集中第一个四分位数(第25个百分点)和第三个四分位数(第75个百分点)之间的差异。这代表了中间50%的数值的分布。

例子:如何计算范围和四分位数范围

假设我们有以下数据集。

**数据集。**1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32

我们可以用以下步骤来计算范围

  • 范围 = 最大值 - 最小值
  • 范围=32-1
  • 范围=31

我们可以使用四分位数范围计算器来帮助我们计算四分位数范围

  • 四分位数范围=第三四分位数-第一四分位数
  • 四分位数范围 = 26.5 - 12
  • 四分位数范围=14.5

范围告诉我们整个数据集的分布,而四分位数范围告诉我们数据集中间一半的分布。

range vs. interquartile range

范围与四分位数范围。相同点和不同点

范围和四分位数范围有以下相似之处。

  • 这两个指标都是测量数据集中数值的分布。

然而,范围和四分位数范围有以下区别。

  • 范围告诉我们整个数据集中最大和最小的值之间的差异。
  • 四分位数范围告诉我们数据集中中间50%的数值的分布。

范围与四分位数范围。何时使用

当我们对了解数据集中最大和最小的数值之间的差异感兴趣时,我们应该使用范围

例如,假设一位教授对100名学生进行了一次考试。她可以使用范围来了解全班所有学生的最高分和最低分之间的差异。

相反,当我们想了解一个数据集的第75个百分点和第25个百分点之间的分布时,我们应该使用四分位数范围

例如,如果一个教授对100名学生进行考试,她可以使用四分位数范围来快速了解一个得分在第75百分位的学生和一个得分在第25百分位的学生之间的考试分数差异。

值得注意的是,我们不必在使用范围或四分位数范围来描述数据集中的数值分布之间做出选择。

我们可以使用这两个指标,因为它们为我们提供了完全不同的信息。

使用范围的弊端

范围有一个缺点。它受到离群值的影响。

为了说明这一点,请考虑以下数据集。

**数据集。**1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32

这个数据集的范围是32-1=31

然而,考虑到如果该数据集有一个极端的离群点。

**数据集。**1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32,378

现在这个数据集的范围将是378-1=377

请注意,由于一个离群点的出现,范围发生了巨大的变化。

在计算任何数据集的范围之前,最好先检查一下是否有任何离群值会导致范围被误导。