数据科学中的统计特征

2022-12-11 701 阅读3分钟

在这篇文章中，我们将了解各种统计特征，如中位数、四分位数、四分位数间范围（IQR）、偏差和方差。

目录

统计学特征
- 偏倚
- 方差
- 中位数
- 四分位数和四分位数之间的范围（IQR）

统计学特征

统计特征是那些可以通过统计分析来定义和计算的数据集的特征。它是数据科学中可能使用最多的统计概念。当我们开始探索一个数据集时，我们做的第一件事就是找出数据集的统计特征。我们将在这里详细讨论这些统计特征中的几个。

偏倚

在统计学中，当真实参数和我们估计的结果之间存在系统性差异时，就被称为偏倚。它基本上意味着我们的统计数字没有正确地代表人口。偏差的来源有很多。其中一些是。

选择偏差是指在选择数据时没有适当的随机化，导致样本不能代表人口。
遗漏变量偏差是指我们在模型中没有必要的变量/属性。
幸存者偏差是指只考虑通过某些选择标准的人或数据，而忽略了其他的人。
观察者偏差是指观察者的偏见、意见和期望影响了他们评估或记录主观标准的方式。
回忆偏差是指实验的参与者不记得以前的事件。

差异

方差给了我们一个衡量数据点与平均值差异程度的标准。它也可以被视为一种衡量标准，告诉我们数据点的分布程度。它被表示为σ2，其公式为
variance
这里，n是样本量，Xi是第i个数据点，μ是平均值。方差的平方根是标准差。

中位数

在一个排序的数字列表中（无论是升序还是降序），中位数是将高半数与低半数分开的中间数字。当我们的数据集中有异常值，使平均数出现偏差时，我们倾向于使用中位数而不是平均值，因为中位数比平均值受异常值的影响要小。

当我们的数据样本由奇数的数值组成时，那么中位数就是中间的数值，在它之上和之下有相同数量的条目。
当我们的数据样本由偶数个值组成时，那么中位数就是中间一对值的平均值。

四分位数和四分位数之间的范围(IQR)

四分位数是将我们的数据集中的观察值分成四个相等的部分。它们分别标志着数据的25%。Q1标记25%，Q2标记中位数或50%，Q3标记75%。四分位数区间包含第二和第三四分位数，告诉我们数据的中间部分有多大的分布。
iqr_quartiles

最小（min）值的计算方法是 *Q1 - 1.5(IQR)*最大（max）值的计算方法为 Q3 + 1.5(IQR).

所有这些都可以用箱形图来完美地说明。
box-plot

如果中位数线不在中间，那么我们可以得出结论，数据是偏斜的。
盒子的长度告诉我们数据点的相似或不同程度。较小的盒子对应于相似的数据点，较高的盒子告诉我们，数据点的分布很广。
晶须的长度告诉我们方差和标准差的情况。如果它们太长，意味着我们的数据是高度变化的。

通过OpenGenus的这篇文章，你一定对数据科学中的统计特征有了完整的了解。