在这篇文章中,我们将了解各种统计特征,如中位数、四分位数、四分位数间范围(IQR)、偏差和方差。
目录
- 统计学特征
-
偏倚
-
方差
-
中位数
-
四分位数和四分位数之间的范围(IQR)
-
统计学特征
统计特征是那些可以通过统计分析来定义和计算的数据集的特征。它是数据科学中可能使用最多的统计概念。当我们开始探索一个数据集时,我们做的第一件事就是找出数据集的统计特征。我们将在这里详细讨论这些统计特征中的几个。
偏倚
在统计学中,当真实参数和我们估计的结果之间存在系统性差异时,就被称为偏倚。它基本上意味着我们的统计数字没有正确地代表人口。偏差的来源有很多。其中一些是。
-
选择偏差是指在选择数据时没有适当的随机化,导致样本不能代表人口。
-
遗漏变量偏差是指我们在模型中没有必要的变量/属性。
-
幸存者偏差是指只考虑通过某些选择标准的人或数据,而忽略了其他的人。
-
观察者偏差是指观察者的偏见、意见和期望影响了他们评估或记录主观标准的方式。
-
回忆偏差是指实验的参与者不记得以前的事件。
差异
方差给了我们一个衡量数据点与平均值差异程度的标准。它也可以被视为一种衡量标准,告诉我们数据点的分布程度。它被表示为σ2,其公式为

这里,n是样本量,Xi是第i个数据点,μ是平均值。方差的平方根是标准差。
中位数
在一个排序的数字列表中(无论是升序还是降序),中位数是将高半数与低半数分开的中间数字。当我们的数据集中有异常值,使平均数出现偏差时,我们倾向于使用中位数而不是平均值,因为中位数比平均值受异常值的影响要小。
-
当我们的数据样本由奇数的数值组成时,那么中位数就是中间的数值,在它之上和之下有相同数量的条目。
-
当我们的数据样本由偶数个值组成时,那么中位数就是中间一对值的平均值。

四分位数和四分位数之间的范围(IQR)
四分位数是将我们的数据集中的观察值分成四个相等的部分。它们分别标志着数据的25%。Q1标记25%,Q2标记中位数或50%,Q3标记75%。四分位数区间包含第二和第三四分位数,告诉我们数据的中间部分有多大的分布。

最小(min)值的计算方法是 *Q1 - 1.5(IQR)*最大(max)值的计算方法为 Q3 + 1.5(IQR).
所有这些都可以用箱形图来完美地说明。

- 如果中位数线不在中间,那么我们可以得出结论,数据是偏斜的。
- 盒子的长度告诉我们数据点的相似或不同程度。较小的盒子对应于相似的数据点,较高的盒子告诉我们,数据点的分布很广。
- 晶须的长度告诉我们方差和标准差的情况。如果它们太长,意味着我们的数据是高度变化的。
通过OpenGenus的这篇文章,你一定对数据科学中的统计特征有了完整的了解。