企业级大数据技术与应用:相关系数

108 阅读1分钟

相关系数的概念

相关关系是一种非确定性的关系,相关系数是表示变量之间线性相关程度的量。

  • 相关系数一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
  • 相关系数的公式如下所示:

Snipaste_2025-11-13_19-17-11.png

  • 相关系数是一种标准化的协方差,它消除了变量单位和量级的影响。相关系数的取值范围是 [0,1]

相关系数的计算方法:

  1. 使用 numpy 库计算协方差numpy.corrcoef(arr, brr=None)
  2. 使用 pandas 库计算协方差`DataFrame.corrcoef(min_periods=None)``
  3. DataFrame.corr(method='pearson', min_periods=1)