离群点 是指与数据集中的其他数值相距异常遥远的观测值。
我们通常将一个观察值定义为离群点,如果它比第三四分位数大1.5倍,或比第一四分位数小1.5倍的四分位数范围。
**注:**四分位数范围是数据集中第三四分位数(第75个百分点)和第一四分位数(第25个百分点)之间的差异。它衡量的是中间50%的数值的分布。
下面的例子说明了如何使用这个公式在谷歌表格中找到数据集中的离群值。
第1步:输入数据
首先,让我们把以下数据集的数值输入到Google Sheets中。
第2步:计算四分位数范围
接下来,让我们计算数据集的第一四分位数、第三四分位数和四分位数之间的范围。
第3步:识别离群值
接下来,我们可以使用下面的公式为数据集中的任何离群值赋值为 "1"。
=IF(A2<$B$18-$B$20*1.5, 1, IF(A2>$B$19+$B$20*1.5, 1, 0))
这个公式检查一个观察值是否是四分位数范围的1.5倍,大于第三四分位数,或四分位数范围的1.5倍,小于第一四分位数。
如果这两种情况都是真的,那么观察值就会被指定为 "1",以指定其为离群值。
下面的截图显示了如何在实践中使用这个公式。
我们看到,在我们的数据集中只有一个值被证明是离群值。164.
如何处理离群值
如果你的数据中出现了异常值,你有几个选择。
1.确保离群值不是数据输入错误的结果。
有时,简单的数据会被错误地记录。如果出现异常值,首先要检查该值的输入是否正确,是否是一个错误。
2.2 .为离群值分配一个新的值。
如果离群点是数据输入错误造成的,你可以决定给它分配一个新的值,比如数据集的平均值或中位数。
3.删除离群点。
如果该值是一个真正的离群值,如果它对你的整体分析有重大影响,你可以选择删除它。只要确保在你的最终报告中提到你删除了一个离群值。
其他资源
下面的教程解释了如何在其他统计软件中移除异常值。
如何在R中移除异常值
如何在Python中移除异常值
如何在SPSS中移除异常值
The postHow to Easily Find Outliers in Google Sheetsappeared first onStatology.