数据分析中常用的统计知识梳理

273 阅读3分钟

一. 正态分布

1. 正态分布基础

  • 问题:什么是正态分布?它有哪些重要特征?
  • 扩展:为什么正态分布在统计学中如此重要?

正态分布是一种对称的连续概率分布,呈现钟形曲线,均值、众数和中位数相等,且位于分布的中心。其概率密度函数(PDF)为:

f(x)=1σ2πe(xμ)22σ2f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{ -\frac{(x - \mu)^2}{2\sigma^2} }

其中,μ是均值,σ是标准差。

根据中心极限定理,当独立随机变量的数量足够大时,其均值的分布趋近于正态分布。正态分布在自然界和社会现象中广泛存在,如人的身高、考试成绩等。

正态分布的数学性质使其在统计分析中具有重要地位。例如,许多统计推断方法,如t检验和回归分析,都基于正态分布的假设。

2. 正态分布的参数

  • 问题:正态分布的两个主要参数是什么?它们分别表示什么含义?
  • 扩展:如果一个数据集符合正态分布,如何通过这两个参数描述数据?

正态分布的主要参数是均值和标准差。均值(μ)表示数据的集中趋势,标准差(σ)表示数据的离散程度。标准差越大,数据分布越分散,曲线越扁平;标准差越小,数据分布越集中,曲线越陡峭。

3. 68-95-99.7法则

  • 问题:什么是68-95-99.7法则?请解释它的意义,并给出一个具体的例子。
  • 扩展:如果我们知道一个正态分布的均值是100,标准差是15,某个数据点为130,那么它属于哪一部分(比如1个标准差、2个标准差或3个标准差以内)?

在正态分布中,约68%的数据位于均值±1个标准差范围内,约95%位于均值±2个标准差范围内,约99.7%位于均值±3个标准差范围内。

Z=XμσZ = \frac{X - \mu}{\sigma} 其中,X是数据点,μ是均值,σ是标准差。

代入数值:(130 - 100) / 15=2,因此,数据点130距离均值100有2个标准差。

!!!要注意衡量单个数据点时除以的是标准差,但衡量样本均值与总体均值之间的差异程度要用标准误差,不要弄混公式

  • 标准差(Standard Deviation, SD) :衡量单个数据点与总体均值之间的差异程度,反映数据的离散程度。

  • 标准误差(Standard Error, SE) :衡量样本均值与总体均值之间的差异程度,反映样本均值的精确度。其计算公式为: SE=σnSE = \frac{\sigma}{\sqrt{n}}

在Z检验中用的公式为:

Z=XˉμSE=Xμ0σnZ = \frac{\bar{X} - \mu}{SE} = \frac{\overline{X} - \mu_0}{\frac{\sigma}{\sqrt{n}}}

在t检验中的公式为:

t=Xμ0snt = \frac{\overline{X} - \mu_0}{\frac{s}{\sqrt{n}}}

σ 是总体标准差(已知)

s 是样本标准差(因为总体标准差未知,所以用样本标准差估计)。

  • Z检验: 适用于总体标准差已知且样本容量较大的情况。

  • t检验: 适用于总体标准差未知且样本容量较小的情况。

再补一个:

  • 双样本t检验(有时也叫独立样本t检验)的统计量计算公式

对于两个独立样本,假设两组样本的方差相等,统计量计算公式为:

t=X1X2Sp1n1+1n2t = \frac{\overline{X_1} - \overline{X_2}}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}

其中:

X1\overline{X_1}X2\overline{X_2}:两组样本的均值

Sp2S_p^2:合并方差,计算公式为:

Sp2=(n11)s12+(n21)s22n1+n22S_p^2 = \frac{(n_1 - 1) s_1^2 + (n_2 - 1) s_2^2}{n_1 + n_2 - 2}

其中:s12s_1^2s22s_2^2:两组样本的方差

n1n_1n2n_2:两组样本的容量

假设两个样本的方差不相等时,使用Welch's t检验,其t值的计算公式为:

t=n1s12+n2s22X1X2t = \frac{n_1 s_1^2 + n_2 s_2^2}{\overline{X_1} - \overline{X_2}}

这里直接使用了各自样本的方差s12s_1^2s22s_2^2,没有合并方差。

Z检验和t检验有很多细节,要格外留意~

4. 正态性检验

  • 问题:如何检验数据是否符合正态分布?请列举几种常见的方法。
  • 扩展:在什么情况下,您会选择使用Shapiro-Wilk检验?而在什么情况下选择使用Kolmogorov-Smirnov检验? 常见的正态性检验方法包括:

图形法:

直方图: 观察数据分布形态,是否呈现钟形对称。

Q-Q图: 将样本分位数与理论正态分布的分位数比较,若点大致落在一条直线上,说明数据可能符合正态分布。

数值法:

计算数据的偏度(Skewness)和峰度(Kurtosis),若偏度接近0且峰度接近3,说明数据可能符合正态分布。

Shapiro-Wilk检验: 用于小样本(通常n≤50)的正态性检验。

Kolmogorov-Smirnov(K-S)检验: 用于大样本的正态性检验。

5. 正态分布的应用

  • 问题:在实际应用中,如何利用正态分布进行假设检验?请举一个实际场景的例子。
  • 扩展:假设你正在进行A/B测试,测试结果是一个正态分布数据,你如何利用正态分布来评估A/B组之间的差异?

以下是一个具体示例:

问题:某电商平台希望通过改版页面(A组)提升用户转化率,与旧页面(B组)进行比较。测试结果如下:

  • A组转化率:10%,标准差:1.5%,样本量:1000
  • B组转化率:9%,标准差:1.2%,样本量:1000

步骤

(1) 提出假设

  • 原假设(H₀):A组和B组的转化率均值无显著差异。

  • 备择假设(H₁):A组和B组的转化率均值存在显著差异。

(2) 收集样本数据

  • A组:均值 = 10%,标准差 = 1.5%,样本量 = 1000
  • B组:均值 = 9%,标准差 = 1.2%,样本量 = 1000

(3)选择检验方法

  • 由于样本量较大(n ≥ 30),总体标准差未知,使用t检验
  • 使用F检验Levene检验判断方差齐性,其中F检验对数据的正态性要求高。
  • 假设两组样本的方差不相等,则使用Welch's t检验

(4)计算检验统计量

  • 根据计算结果,t值约为16.46。 在显著性水平α=0.05\alpha = 0.05下,查找t分布表或使用统计软件计算p值,发现p值远小于0.05。 因此,拒绝原假设,认为A组和B组的转化率均值存在显著差异。

6. 中心极限定理

  • 问题:请简述什么是中心极限定理(Central Limit Theorem) 。它与正态分布有何关系?

中心极限定理证明了,在适当的条件下,无论原始数据的分布如何,其均值或总和(均值乘以样本量)的分布都将趋近于正态分布。

它使得我们能够在样本量足够大的情况下,不必关心总体的具体分布形态,仍然能够对总体的特征进行准确的推断。这大大简化了数据分析的过程,并提高了推断的准确性。

7. 正态分布与其他分布的关系

  • 问题:正态分布与t分布、卡方分布有何关系?
  • 扩展:在样本量较小的情况下,为什么使用t分布而不是正态分布?

正态分布是基础,样本量小时用t分布更准,因为t分布考虑了样本量小和总体方差未知的不确定性,卡方检验主要用于检验两个或多个分类变量之间是否存在显著的关联性

8. 正态分布的偏态性与峰态性

  • 问题:正态分布是对称的。那么,如果数据有明显的偏态(skewness)或峰态(kurtosis)问题,应该怎么办?
  • 扩展:如何判断数据的偏态性和峰态性,并采取适当的统计方法?

数据转换:对于偏态数据,可以通过对数变换、平方根变换、Box-Cox变换等方法将数据转换为接近正态分布的形式。转换后的数据可以使用基于正态分布的统计方法进行分析。

非参数统计方法:如果数据转换不可行或转换后的数据仍不满足正态性假设,可以考虑使用非参数统计方法,如秩和检验、符号检验、Spearman秩相关系数等。这些方法不依赖于数据的具体分布形式,因此适用于偏态数据。

稳健统计方法:稳健统计方法对数据中的异常值或极端值不敏感,因此适用于偏态数据。例如,可以使用中位数和四分位数等稳健统计量来描述数据的中心位置和离散程度。

异常值处理:峰态数据通常伴随着异常值或极端值的存在。因此,在进行分析之前,需要对异常值进行处理。常用的异常值处理方法包括删除异常值、将异常值替换为缺失值或使用中位数等稳健统计量进行替代。

数据转换:与偏态数据类似,峰态数据也可以通过适当的变换方法转换为接近正态分布的形式。然而,对于峰态数据的转换需要更加谨慎,因为不恰当的变换可能会导致数据的失真。