本文已参与「新人创作礼」活动,一起开启掘金创作之路。
简介
相关性分析是研究两个或两个以上的随机变量间的相关关系的统计分析方法,例如降水与地形、降水与温度等的相关关系。相关分析前,首先通过散点图了解变量间大致的关系情况。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。

皮尔逊相关系数
总体person相关系数
ρXY=σxσyCov(X,Y)
σx=n∑i=1n(Xi−E(X))2与σy=n∑i=1n(Yi−E(Y))2分别是X总体与Y总体的方差。
Cov(X,Y)=n∑i=1n(Xi−E(X))(Yi−E(Y))为总体的协方差。
样本person相关系数
rXY=SxSyCov(X,Y)
Sx=n−1∑i=1n(Xi−Xˉ)2与Sy=n−1∑i=1n(Yi−Yˉ)2分别是X样本与Y样本的方差。
Cov(X,Y)=n−1∑i=1n(Xi−Xˉ)(Yi−Yˉ)为样本的协方差。
Tips:皮尔逊相关系数只是用来衡量两个变量线性相关程度的指标,所以必须确定这两个变量是线性相关的,才能够表示线性相关程度。相关系数的结果为0,只能说明他们是非线性相关的,但不能表明其没有相关关系。
皮尔逊相关系数假设检验
前提步骤
- 前提条件
- 实验数据通常假设是成对的来自于正态分布的总体。
- 实验数据之间的差距不能太大。
- 每组样本之间是独立抽样的。
- 对数据进行正态分布检验
流程
- 提出原假设与备择假设, H0:r=0,H1:r=0 。
- 构造检验统计量
r1−r2n−2∼t(n−2)
服从自由度为 2 的 t 分布
-
计算出检验值(代入数据)得到 t∗ 。
-
使用 p 检验
计算 p 值
p=2×(1−∫−∞t∗t(x)dx)
- 结果说明
- p<0.01: 在 99% 的置信水平上拒绝原假设。
- 0.01<p<0.05 : 在 99% 的置信水平上无法㫜色原假设,但在 95% 的水平上可以拒绝原假设。
- 0.05<p<0.1: 在 95% 的置信水平上无法拒绝原假设,但在 90% 的水平上可以拒绝原殿设。
斯皮尔曼相关系数
X,Y 为两组数据,其斯皮尔晶(等级)相关系数:
rs=1−n(n2−1)6∑i=1ndi2
di 为 Xi 与 Yi 之间的等级差。 (−1≤rs≤1) 。
皮尔逊相关系数与斯皮尔曼相关系数对比
- 连续数据,正态分布,线性关系,最好使用 person。
- 除此之外都使用 spearman。
- 两个定序数据之间也只能用spearman。
定序数据:仅仅反映观测对象的等级顺序关系的数据。(例如:优,良,差等)。