数据分析(01)|统计基础-描述性统计分析

240 阅读1分钟

1 数据的计量尺度

名称例子数据类型
定类尺度性别、民族、职业定性数据
定序尺度职称、健康状况、质量等级定性数据
定距尺度温度、纬度定量数据
定比尺度质量、长度定量数据

2 数据的集中趋势

集中趋势在统计学中是指一组数据向某一中心值靠拢的程度,反映了一组数据中心点所在的位置。集中趋势测度就是寻找数据水平的代表值或中心值。

2.1 平均数

数据的和除以所含的个数,记为xˉ\bar{x},公式如下:

xˉ=i=1nxin\bar{x}=\frac{\sum_{i=1}^n{x_i}}{n}

平均值易受极端值的影响,可以根据实际情况去掉极端值。

2.2 四分位数

四分位数不受极端值的影响,在统计学中,把所有数值由小到大排列分成四等份,除以三个分割点位置的数字就是四分位数。第一分位数(Q1),又称较小四分位数;第二分位数(Q2),又称中四分位数;第三分位数(Q3),又称较大四分位数。 image.png

2.3 中位数

中位数是特殊的四分位数,一处数据按大小排序排列后,处在数列中间位置的数据 将一组n个数据从小到大排序后,中位数的计算分两种情况:

  1. 当n为奇数时,中位数等于第(n-1)/2个数对应的值;
  2. 当n为偶数时,中位数等于第n/2和(n/2)+1个数的平均值。

2.4 众数

众数是指一组数据中出现次数最多的变量值。一组数据中可能没有众数,也可能有一个众数或多个众数。 image.png

3 数据的离中趋势

离中趋势在统计学中是指一组数据在某一中心值分散的程度,它反映了各个数据点远离其中心点的程度。

3.1 极差

极差(也称全距)是一组数据中的最大值与最小值的差距,用公式表示为:

极差=最大值最小值极差=最大值-最小值

极差能说明数据组中各数据值的最大变动范围,但由于是根据数据组的两个极端值进行计算的,没有考虑到中间值的变动情况,所以不能充分反映数据组的各项数据的离中趋势。

3.2 分位距

对全距的改进,从一组数据中剔除一部分极端值之后重新计算的类似于全距的指标。

四分位距=第三个四分位数第一个四分位数四分位距=第三个四分位数-第一个四分位数

反映了数列中间部分各变量的最大值与最小值的差距。

3.3 平均差

平均差是数据组中个数据值与其算数平均数离差绝对值的算数平均数,常用符号"M.D"表示:

M.D=xxˉnM.D=\frac{\sum|x-\bar{x}|}{n}

当变量数列是由没有分组的数据组成或分组后每组的次数相等的数据组成时采用。

3.4 方差与标准差

方差是数据组中各数据组与其算数平均数离差平方的算数平均数,用符号s2s^2表示。方差的平方根就是标准差,用符号"s"表示。设有xi,x2,...,xnx_i,x_2,...,x_n共n个数组成一个数列,xˉ\bar{x}为数列的平均值,则该组数据的标准差公式为:

s=i=1n(xixˉ)2ns=\sqrt\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n}

标准差的性质:

  1. 标准差度量了偏离平均数的大小
  2. 标准差是一类平均偏差
  3. 标准差指出了数列中的数离它们的平均数多远。数列大多数项离开平均数少于1个σ\sigma(标准差)范围内,极少数项将离开2个或3个σ\sigma以上。一般来讲,一个数列中约68%(2/3)的项在离平均数的1个σ\sigma范围内,其余的32%离得较远。约95%(19/20)的数据在距平均数的2个σ\sigma范围内,其余的5%则远离之。

3.5 离散系数

要比较不同两组数据的离中程度的大小,就有必要计算它们的相对离中程度指标,即离散系数,用的离散系数指标是标准差系数。
标准差系数是将一组数据的标准差与其算数平方根对比的结果,以测定其相对离中程度,常用符号"VsV_s"表示,其公式为:

Vs=sxˉ×100%V_s=\frac{s}{\bar{x}}\times100\%

4 数据分布的测定

数据分布是指当把取得的数据按某种分组画出直方图后,将每个直方图的上边的中点用一根曲线连接在一起,也即拟合出一根曲线,当分组的区间越来越小时,直方图就变成了一根平滑的曲线,由这根曲线和横轴之间的面积,就组成了数据的分布。

4.1 数据偏态及其测定

数据分布的不对称性称作偏态。偏态是指数据分布的偏斜方向和程度。偏度,通常分为左偏(负偏)与右偏(正偏)。

  • 正态分布:xˉ=Me=M0\bar{x}=M_e=M_0,均数、中位数、众数相等
  • 右向偏态:众数的数值较小,平均数的数值较大
  • 左向偏态:众数的数值较大,平均数的数值较小 偏态系数(SK)是对数据分布的不对称性(偏斜程度)的测定。
SK=n(n1)(n2)(xixˉs)3SK=\frac{n}{(n-1)(n-2)}\sum(\frac{x_i-\bar{x}}{s})^3
  • SK=0,分布是对称的;
  • SK<0,负偏态,SK越小,负偏程度越高;
  • SK>0,正偏态,SK越大,正偏程度越高。

4.2 数据峰度及其测定

峰度是数据分布的尖峭程度或峰凸程度。

  • 标准峰度
  • 尖顶峰度:当变量值的次数在众数周围分布比较集中,使次数分布曲线比正态分布曲线顶峰更为隆起尖峭
  • 平顶峰度:当变量值的次数在众数周围分布比较分散,使次数分布曲线比正态分布曲线顶峰更为平缓 峰度系数(K)是对数据分布的尖峭程度的测定。
K=n(n+1)(n1)(n2)(n3)(xixˉs)43(n1)2(n2)(n3)K=\frac{n(n+1)}{(n-1)(n-2)(n-3)}\sum(\frac{x_i-\bar{x}}{s})^4-\frac{3(n-1)^2}{(n-2)(n-3)}
  • K<0,与正态分布相比,该分布一般为扁平、瘦尾、肩部较胖 image.png
  • K>0,与正态分布相比,该分布一般为尖峰、肥尾、肩部较瘦 image.png

4.3 数据偏度和峰度的作用

  1. 将偏度和峰度结合起来用于检查样本的分布是否属于正态分布,以便判断总体的分布。如果样本的偏度系数接近于0,峰度系数接近于3,可以推断总体分布接近于正态分布。
  2. 利用资料之间存在的偏度关系,对算数平均数xˉ\bar{x}、众数m0m_0、中位数mem_e进行推算。
    • 右偏:xˉ>me>m0\bar{x}>m_e>m_0
    • 左偏:xˉ<me<m0\bar{x}<m_e<m_0

根据经验,在偏态适度时,不论右偏还是左偏,三者之间的距离有近似的固定关系,即中位数与算数平均数的距离约等于众数与算数平均数距离的1/3。

m0xˉ=3(mexˉ)m_0-\bar{x}=3(m_e-\bar{x})

参考书:《从零进阶!数据分析的统计基础》