皮尔逊相关系数的理解
使用误区与前提
计算皮尔逊相关系数之前必须保证变量之间是线性相关的!画散点图看趋势!



相关系数大小的解释

皮尔森Pearson相关系数 VS 斯皮尔曼Spearman相关系数
相对于皮尔森相关系数,斯皮尔曼相关系数对于数据错误和极端值的反应不敏感。
皮尔森相关系数须要满足以下条件:
- 数据皮尔森相关系数要满足正态分布
- 皮尔森相关系数受异常值的影响比较大,所以实验数据之间的差距不能太大
- 每组样本之间是独立抽样的->构造t统计量时需要用到
★★★★皮尔逊相关系数使用的步骤:
- 画散点图看是否有线性关系
- 检验是否是正态分布 :JB检验(>30),夏皮洛‐威尔克检验([3,50]),Q-Q图
- 计算皮尔逊相关系数corrcoef(Test)
- 斯皮尔曼相关系数的假设检验 ,标注每个相关系数的显著性水平*
★★★★下图重要

注:90%都选择斯皮尔曼,因为皮尔森正态分布太难满足了
斯皮尔曼相关系数的假设检验
详见https://juejin.cn/post/6844903823681536013
小样本 n≤30:
查表-双侧检验,0.05显著性,r需要大于等于表中的临界值,才能得出显著的结论:和0有显著的差异

大样本:
