协方差 Cov(X,Y) 定义公式 和协方差矩阵 协方差矩阵的集合表达

0 阅读1分钟

一、协方差 Cov(X,Y) 定义公式

1. 总体定义

Cov(X,Y)=E[(Xμx)(Yμy)]\mathrm{Cov}(X,Y)=E\left[\,(X-\mu_x)(Y-\mu_y)\,\right] μx=E(X),μy=E(Y)\mu_x=E(X),\mu_y=E(Y) 是两个变量均值。

2. 样本协方差(实际算数据用)

Cov(X,Y)=1n1i=1n(xixˉ)(yiyˉ)\mathrm{Cov}(X,Y)=\frac1{n-1}\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)

二、大白话通俗解释

协方差:衡量两个变量是同涨同跌,还是一涨一跌反向走。 拿每个数据: (xxˉ)(x-\bar x):这个x偏离自己平均值多少 (yyˉ)(y-\bar y):这个y偏离自己平均值多少 相乘再平均,结果正负定关系:

1. Cov>0\boldsymbol{Cov>0} 正相关

大部分数据: x大于均值时,y也大于均值; x小于均值时,y也小于均值。 乘积大多为正数 → 平均后>0 👉 同升同降 例:身高越高、体重往往越重。

2. Cov<0\boldsymbol{Cov<0} 负相关

x高于均值,y大多低于均值; x低于均值,y大多高于均值。 乘积大多负数 → 平均后<0 👉 此消彼长 例:价格越高,销量越低。

3. Cov0\boldsymbol{Cov≈0} 不线性相关

正负乘积相互抵消,加起来趋近0 👉 涨跌没关系,无线性联动。

三、缺点(为什么还要相关系数)

协方差受量纲影响: 身高用cm和m去算,Cov数值天差地别,没法直接比相关强弱。 于是归一化得到相关系数: ρ=Cov(X,Y)σxσy,1ρ1\rho=\frac{\mathrm{Cov}(X,Y)}{\sigma_x\sigma_y},\quad -1\le\rho\le1

四、协方差矩阵衔接之前几何

  • 对角线:Cov(X,X)=Var(X)\mathrm{Cov}(X,X)=Var(X) 自身方差(自己波动大小)
  • 非对角线:不同变量间协方差(互相联动)

整张矩阵 = 所有维度两两之间涨跌联动汇总,对应数据椭圆倾斜与胖瘦。

极简口诀

同大同小协方差正,一大一小协方差负,杂乱无章趋近于零。

需要举一组5个数字,手动算一遍Cov吗?

协方差矩阵的作用(通俗+实用总结)

协方差矩阵 Σ\boldsymbol{\Sigma}刻画多维随机变量各个维度之间的波动相关性,是统计学、机器学习、图像处理、金融、PCA的核心工具。

nn 维变量 X=(X1,X2,,Xn)\boldsymbol X=(X_1,X_2,\dots,X_n),矩阵元素: Σij=Cov(Xi,Xj)=E[(Xiμi)(Xjμj)]\Sigma_{ij}=\mathrm{Cov}(X_i,X_j)=E[(X_i-\mu_i)(X_j-\mu_j)]

  • 对角线 Σii=Var(Xi)\Sigma_{ii}=\mathrm{Var}(X_i):第 ii 维自身方差(自身波动大小)
  • 非对角线 Σij\Sigma_{ij}Xi,XjX_i,X_j 协方差,正负代表两变量同向/反向变化

一、四大核心用途

1. 衡量多变量相关性

  1. Cov>0\mathrm{Cov}>0:两变量同涨同跌
  2. Cov<0\mathrm{Cov}<0:一涨一跌反向变动;
  3. Cov0\mathrm{Cov}\approx0:线性无关。

相关系数:ρij=Cov(Xi,Xj)Var(Xi)Var(Xj)\rho_{ij}=\dfrac{\mathrm{Cov}(X_i,X_j)}{\sqrt{\mathrm{Var}(X_i)\mathrm{Var}(X_j)}},由协方差矩阵换算。

举例:金融多只股票收益率协方差矩阵,看个股涨跌联动。

2. PCA主成分分析(最常用)

PCA本质:对协方差矩阵做特征值分解 Σv=λv\boldsymbol\Sigma \boldsymbol v=\lambda \boldsymbol v

  • 特征值 λ\lambda:对应方向数据方差大小(信息量);
  • 特征向量:新坐标轴方向。 用途:降维、去冗余,丢掉小特征值维度,保留主要信息。

图像处理压缩、数据特征筛选全靠它。

3. 多维正态分布建模

nn 维正态分布: XN(μ,Σ)\boldsymbol X\sim \mathcal N(\boldsymbol\mu,\boldsymbol\Sigma) 均值向量 μ\boldsymbol\mu 控制中心位置,协方差矩阵 Σ\boldsymbol\Sigma 控制椭圆形状、倾斜度

  • 对角阵(无相关):椭圆轴平行坐标轴;
  • 非对角非零(变量相关):椭圆倾斜。 高斯混合模型GMM、卡尔曼滤波全部依赖协方差矩阵。

4. 优化与风险度量

  1. 马科维茨资产组合:用收益率协方差矩阵计算组合整体方差(投资风险),优化配比最小化风险;
  2. 马氏距离d2=(xμ)TΣ1(xμ)d^2=(\boldsymbol x-\boldsymbol\mu)^T\boldsymbol\Sigma^{-1}(\boldsymbol x-\boldsymbol\mu),消除量纲+相关性影响,异常检测、离群点判别。

二、附加工程用途

  1. 卡尔曼滤波:协方差矩阵实时更新预测不确定性;
  2. 机器学习:高斯过程GP、多维贝叶斯建模核心;
  3. 信号处理:多通道信号去相关、阵列信号滤波。

三、一句话精简

协方差矩阵 = 多维数据的“相关性+波动大小”汇总表,用来算相关、降维、建模分布、算风险距离。

协方差矩阵几何意义(直观几何:椭圆变换)

核心结论: 协方差矩阵 Σ\boldsymbol\Sigma 等价于一个线性变换,把单位圆变成高斯分布的等概率椭圆(置信椭圆);特征向量=椭圆主轴方向,特征值=主轴半轴长平方。

1. 数学关系

对实对称半正定协方差矩阵做特征分解: Σ=VΛVT\boldsymbol \Sigma = \boldsymbol V \boldsymbol \Lambda \boldsymbol V^T

  • V\boldsymbol V:正交矩阵,列向量 = 椭圆长短轴方向(特征向量)
  • Λ=diag(λ1,λ2,,λn)\boldsymbol\Lambda=\mathrm{diag}(\lambda_1,\lambda_2,\dots,\lambda_n)λi\lambda_i 是特征值
  • 二维:λ1,λ2\sqrt{\lambda_1},\sqrt{\lambda_2} 是椭圆两个半轴长度

二维等概率椭圆方程

多维正态等高线满足: (xμ)TΣ1(xμ)=C(\boldsymbol x-\boldsymbol \mu)^T\boldsymbol\Sigma^{-1}(\boldsymbol x-\boldsymbol \mu)=C CC 为常数 → 几何就是中心在μ\boldsymbol\mu的椭圆

2. 分3种典型几何形态(二维最好理解)

Σ\boldsymbol\Sigma 对角阵、λ1=λ2\lambda_1=\lambda_2σx=σy,Cov=0\sigma_x=\sigma_y,\mathrm{Cov}=0

Σ=[σ200σ2]\boldsymbol\Sigma=\begin{bmatrix}\sigma^2 &0\\0&\sigma^2\end{bmatrix} 椭圆→正圆,x、y无关、波动幅度一样,坐标轴就是主轴。

Σ\boldsymbol\Sigma 对角阵、λ1λ2\lambda_1\neq\lambda_2、非对角元=0

Σ=[σ1200σ22]\boldsymbol\Sigma=\begin{bmatrix}\sigma_1^2 &0\\0&\sigma_2^2\end{bmatrix} 椭圆轴和x/y坐标轴平行,变量互不相关,长短轴分别沿坐标轴。

③ 非对角元≠0(Cov(X,Y)0\mathrm{Cov}(X,Y)\neq0

Σ=[σx2CovCovσy2]\boldsymbol\Sigma=\begin{bmatrix}\sigma_x^2 &\mathrm{Cov}\\\mathrm{Cov}&\sigma_y^2\end{bmatrix} 椭圆倾斜旋转

  • Cov>0\mathrm{Cov}>0:椭圆向右上倾斜(X、Y正相关)
  • Cov<0\mathrm{Cov}<0:椭圆向左上倾斜(X、Y负相关) 协方差正负决定椭圆倾斜方向,方差决定胖瘦。

3. 线性变换视角(最本质几何)

  1. 原始标准正态 ZN(0,I)Z\sim N(\boldsymbol0,\boldsymbol I),分布是单位圆;
  2. 做线性变换:X=VΛZ+μ\boldsymbol X=\boldsymbol V\sqrt{\boldsymbol\Lambda}\boldsymbol Z+\boldsymbol\mu
    • Λ\sqrt{\boldsymbol\Lambda}:沿坐标轴拉伸/压缩(控制半轴)
    • V\boldsymbol V:整体旋转(控制椭圆朝向)

协方差矩阵 = 拉伸+旋转的复合线性变换算子

4. 延伸:马氏距离几何

dM2=(xμ)TΣ1(xμ)d_M^2=(\boldsymbol x-\mu)^T\Sigma^{-1}(\boldsymbol x-\mu) 马氏距离就是把椭圆空间还原成单位圆后的欧式距离

  • 椭圆上所有点马氏距离相等;
  • 消除变量量纲、相关性带来的几何畸变。

5. 高维推广(n维)

n维协方差对应n维超椭球

  • 特征向量:超椭球各个主轴方向
  • λi\sqrt{\lambda_i}:各主轴长度 PCA几何:把椭球旋转对齐坐标轴,砍掉短轴(小特征值)实现降维

一句话总结

协方差矩阵在几何上 = 描述数据分布椭球的形状、大小、朝向;特征向量定方向,特征值定半轴长短。

一、举实例:3种协方差 + 对应椭圆

设二维数据中心 μ=(0,0)\mu=(0,0),等高线:xTΣ1x=1\boldsymbol x^T\Sigma^{-1}\boldsymbol x=1

案例1:Σ1=[4004]\boldsymbol{\Sigma}_1=\begin{bmatrix}4&0\\0&4\end{bmatrix}λ1=λ2=4\lambda_1=\lambda_2=4,半轴λ=2\sqrt\lambda=2

  • 无相关、X,YX,Y方差相同
  • 几何:圆心在原点的正圆,半径=2

案例2:Σ2=[9001]\boldsymbol{\Sigma}_2=\begin{bmatrix}9&0\\0&1\end{bmatrix}λ1=9,λ2=1\lambda_1=9,\lambda_2=1,半轴313、1

  • 协方差=0,变量无关
  • 几何:正椭圆,长短轴平行x、y坐标轴,x轴拉长3倍,y轴1倍

案例3:Σ3=[5335]\boldsymbol{\Sigma}_3=\begin{bmatrix}5&3\\3&5\end{bmatrix}(正相关,Cov=3>0\mathrm{Cov}=3>0

特征值 λ1=8,λ2=2\lambda_1=8,\lambda_2=2 特征向量:(12,12)(\frac1{\sqrt2},\frac1{\sqrt2})(12,12)(-\frac1{\sqrt2},\frac1{\sqrt2})

  • 半轴:82.828,21.414\sqrt8\approx2.828,\sqrt2\approx1.414
  • 主轴沿 y=xy=x(一、三象限),椭圆向右上倾斜(正相关)

Cov<0\mathrm{Cov}<0,主轴沿 y=xy=-x,椭圆往二四象限斜。

二、线性变换拆解(几何本源)

Σ=VΛVA=VΛ,X=AZ\Sigma=V\Lambda V^\top \Rightarrow A=V\sqrt\Lambda,\quad X=AZ ZN(0,I)Z\sim N(0,I):数据落在单位圆

  1. Λ\sqrt\Lambda:沿坐标轴拉伸(决定半轴长短)
  2. VV:正交旋转(决定椭圆朝哪边歪)

A\boldsymbol A 就是把单位圆→分布椭圆的变换矩阵,Σ=AA\Sigma=AA^\top

三、马氏距离几何

dM2=xΣ1x=Cd_M^2=\boldsymbol x^\top\Sigma^{-1}\boldsymbol x=C

  • C=1C=1:落在椭圆上,马氏距离全相等
  • 坐标经过 Σ1/2\Sigma^{-1/2} 变换后 → 变回单位圆,马氏距离=欧式距离

四、PCA几何一句话

协方差特征分解=旋转椭球让主轴对准坐标轴,丢掉短主轴(小特征值),完成降维。

需要我换一组负相关协方差再算一遍对比吗? 在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述 在这里插入图片描述 在这里插入图片描述 视频来源 www.bilibili.com/video/BV1iY…