数据科学中的统计特征

701 阅读3分钟

在这篇文章中,我们将了解各种统计特征,如中位数、四分位数、四分位数间范围(IQR)、偏差和方差。

目录

  • 统计学特征
    • 偏倚

    • 方差

    • 中位数

    • 四分位数和四分位数之间的范围(IQR)

统计学特征

统计特征是那些可以通过统计分析来定义和计算的数据集的特征。它是数据科学中可能使用最多的统计概念。当我们开始探索一个数据集时,我们做的第一件事就是找出数据集的统计特征。我们将在这里详细讨论这些统计特征中的几个。

偏倚

在统计学中,当真实参数和我们估计的结果之间存在系统性差异时,就被称为偏倚。它基本上意味着我们的统计数字没有正确地代表人口。偏差的来源有很多。其中一些是。

  • 选择偏差是指在选择数据时没有适当的随机化,导致样本不能代表人口。

  • 遗漏变量偏差是指我们在模型中没有必要的变量/属性。

  • 幸存者偏差是指只考虑通过某些选择标准的人或数据,而忽略了其他的人。

  • 观察者偏差是指观察者的偏见、意见和期望影响了他们评估或记录主观标准的方式。

  • 回忆偏差是指实验的参与者不记得以前的事件。

差异

方差给了我们一个衡量数据点与平均值差异程度的标准。它也可以被视为一种衡量标准,告诉我们数据点的分布程度。它被表示为σ2,其公式为
variance
这里,n是样本量,Xi是第i个数据点,μ是平均值。方差的平方根是标准差。

中位数

在一个排序的数字列表中(无论是升序还是降序),中位数是将高半数与低半数分开的中间数字。当我们的数据集中有异常值,使平均数出现偏差时,我们倾向于使用中位数而不是平均值,因为中位数比平均值受异常值的影响要小。

  • 当我们的数据样本由奇数的数值组成时,那么中位数就是中间的数值,在它之上和之下有相同数量的条目。

  • 当我们的数据样本由偶数个值组成时,那么中位数就是中间一对值的平均值。
    Median

四分位数和四分位数之间的范围(IQR)

四分位数是将我们的数据集中的观察值分成四个相等的部分。它们分别标志着数据的25%。Q1标记25%,Q2标记中位数或50%,Q3标记75%。四分位数区间包含第二和第三四分位数,告诉我们数据的中间部分有多大的分布。
iqr_quartiles

最小(min)值的计算方法是 *Q1 - 1.5(IQR)*最大(max)值的计算方法为 Q3 + 1.5(IQR).

所有这些都可以用箱形图来完美地说明。
box-plot

  • 如果中位数线不在中间,那么我们可以得出结论,数据是偏斜的。
  • 盒子的长度告诉我们数据点的相似或不同程度。较小的盒子对应于相似的数据点,较高的盒子告诉我们,数据点的分布很广。
  • 晶须的长度告诉我们方差和标准差的情况。如果它们太长,意味着我们的数据是高度变化的。

通过OpenGenus的这篇文章,你一定对数据科学中的统计特征有了完整的了解。