企业级大数据技术与应用:协方差

181 阅读1分钟

协方差的概念

协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即两个变量相同的情况。

  • 协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致,也就是说,如果其中一个大于自身的期望值,另一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另一个却小于自身的期望值,那么两个变量之间的协方差就是负值。如果两个变量相互独立,协方差为 0。
  • 期望值分别为 E(X) 与 E(Y) 的两个随机变量 X 与 Y 之间的协方差 cov(X,Y) 定义为:

cov(X,Y)=E[(X−E(X))(Y−E(Y))]

协方差的性质

协方差具有如下性质:

  1. cov(X,X)=D(X)。
  2. cov(X,Y)=cov(Y,X) 成立。
  3. 若a、b是常数,则 cov(aX,bY)=abcov(X,Y) 成立
  4. cov(X+Y,Z)=cov(X,Z)+cov(Y,Z) 成立。 

协方差的计算方法

  1. 使用 numpy 库计算协方差numpy.cov(arr, brr=None)
  2. 使用 pandas 库计算协方差`DataFrame.cov(min_periods=None)``