描述统计学入门

332 阅读7分钟

描述性统计分析可以帮助理解数据,是机器学习的一个非常重要的部分。另一方面,统计就是从数据中得出结论,这是必要的第一步。在这篇文章中,你将学习最重要的描述性统计概念。

目录

  • 引言
  • 正态分布
  • 集中趋势(均值,中位数,众数)
  • 离散程度(极差,四分位差)
  • 方差和标准差
  • 形态
  • 偏度
  • 峰度

引言

对数据集进行描述性统计分析是至关重要的。很多人跳过了这一部分,因此失去了很多关于数据的有价值的见解,这往往导致错误的结论。

但首先,我们应该仔细研究一下统计数据到底是什么:

统计学是数学的一个分支,涉及收集、整理、展示、分析和解释数据。

在统计学中,主要有两类:

  1. **描述统计学: **在描述统计学中,通过数字计算或图表来整理、展示、分析和解释数据。
  2. **推断统计学: **推断统计学是通过更复杂的数学计算产生的,使我们能够推断趋势,并基于对样本的研究对总体做出假设和预测。

正态分布

正态分布是统计学中最重要的概念之一,因为几乎所有的统计检验都需要正态分布的数据。它基本上描述了大量数据样本在绘制时的样子。它有时被称为“钟形曲线”或“高斯曲线”。

推断统计学和概率计算要求给出正态分布。这基本上意味着,如果你的数据不是正态分布的,那么您需要非常谨慎地对其应用统计测试,因为它们可能导致错误的结论。

在一个完美的正态分布中,每一边都是另一边的精确镜像。它应该看起来像下面图片上的分布:

集中趋势

在统计学中,我们必须处理平均数、众数和中位数,这些也被称为“集中趋势”。这只是三种不同的“平均值” ,当然也是最受欢迎的。

平均数

平均数被认为是从单一样本中对总体进行假设的最可靠的集中趋势度量。集中趋势决定了数据值围绕其平均数、众数或中位数聚集的趋势。平均值是由所有值的和除以值的数目计算出来的。

众数

众数是数据中最常出现的值或类别。因此,如果没有重复的数字或者类别不相同,数据集就没有众数。一个数据集可能有多个众数,众数也是唯一可以用于分类变量的中心趋势度量,因为你不能计算例如变量“性别”的平均值,只需将类别变量报告为数字和百分比。

中位数

中位数是数据中的“中间值”或“中点” ,也称为“50%”。请注意,中位数受异常值和偏斜数据的影响要比平均值小得多。用一个例子来解释: 假设你有一个房屋价值的数据集,大部分从10万美元到30万美元不等,但是包含一些价值超过300万美元的房屋。这些昂贵的房子将严重影响平均数,因为平均数是所有价值的总和除以价值的数量。中位数不会受到这些异常值的严重影响,因为它只是所有数据点的“中间”值。

在正态分布中,这些指标都落在同一个中线点上。这意味着平均数、众数和中位数都是相等的。

离散程度

最常用的可变性测量方法是极差、四分位差、方差和标准差。它们用于测量数据的扩散性或可变性。

极差

极差描述数据中最大值和最小值之间的差异。

四分位差

四分位差是衡量上四分位数(75%位数)和下四分位数(25%位数)之间统计分布程度的指标。

方差和标准差

计算方差的方法是找出每个数据点与均值之间的差,将它们平方再相加,然后取这些数字的平均值。

在计算过程中使用平方是因为赋予离群值的权重比接近平均值的点更大,这样可以防止高于平均值的差异抵消低于平均值的差异。

方差的问题在于,由于平方运算它与原始数据不是同一计量单位。这就是为什么标准差更常用的原因,因为它是原来的单位。标准差是方差的平方根,正因为如此,它返回到最初的度量单位。

当标准差比较小时,数据往往接近平均值。高标准差意味着数据分布在很广的范围内。

当数据是单峰的时候,标准差是最好的选择。在正态分布中,大约34% 的数据点位于均值和均值之上或之下一个标准差之间。由于正态分布是对称的,68% 的数据点位于均值以上一个标准差和以下一个标准差之间。大约95% 的数据点介于低于均值的两个标准差和高于均值的两个标准差之间。大约有99.7% 的偏差介于高于均值三个标准偏差和低于均值的三个标准偏差之间。如下图所示:

在pandas中使用std()函数计算标准差.

形态

一个分布的形态取决于它所包含的峰值的数目。大多数分布只有一个峰值,但是有可能会遇到两个或更多峰值的分布。

单峰分布意味着分布只有一个峰值,这意味着它只有一个频繁出现的得分,集中在顶部。一个双峰分布有两个频繁出现的值(双峰) ,一个多峰分布有两个以上频繁出现的值。

偏度

偏度(skewness)也称为偏态、偏态系数。

偏度是分布对称性的度量。因此,它描述了一个分布与正态分布之间的差别,无论是向左还是向右。偏度值可以是正值,也可以是负值或零值。请注意,一个完美的正态分布的偏度为零,因为平均值等于中位数。

不同类型的偏态:

  • 如果数据堆积在左边,那么我们所说的正偏(右偏分布)就是尾巴指向右边。
  • 如果数据堆积在右侧,则会发生负偏(左偏分布),从而使尾巴指向左侧。请注意,正偏比负偏更频繁。

皮尔逊偏度系数(Pearson’s skewness coefficient) 是衡量分布偏度的一个很好的方法,它可以快速估计分布的对称性。在pandas中计算偏度,使用skew ()函数。

峰度

峰度表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。请注意,直方图是显示数据集偏度和峰度的有效方法,因为你可以很容易地发现数据是否有问题。概率图也是一个很好的工具,因为一个正态分布将遵循直线。

在统计学中,峰度(Kurtosis)衡量实数随机变量概率分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。

你可以在下面的图片中看到一个正向倾斜的数据集:

现在我们将讨论三种最常见的峰度类型。

正态分布峰度为或接近于零。分布的峰度大于3,意味着分布产生更多的极端值,标准差相对较小。

如果你已经认识到一个分布是倾斜的,不需要计算它的峰度,因为分布已经不正常了。在pandas中,你可以简单地通过调用kurtosis()函数来查看峰度。