一、协方差 Cov(X,Y) 定义公式
1. 总体定义
Cov(X,Y)=E[(X−μx)(Y−μy)]
μx=E(X),μy=E(Y) 是两个变量均值。
2. 样本协方差(实际算数据用)
Cov(X,Y)=n−11∑i=1n(xi−xˉ)(yi−yˉ)
二、大白话通俗解释
协方差:衡量两个变量是同涨同跌,还是一涨一跌反向走。
拿每个数据:
(x−xˉ):这个x偏离自己平均值多少
(y−yˉ):这个y偏离自己平均值多少
相乘再平均,结果正负定关系:
1. Cov>0 正相关
大部分数据:
x大于均值时,y也大于均值;
x小于均值时,y也小于均值。
乘积大多为正数 → 平均后>0
👉 同升同降
例:身高越高、体重往往越重。
2. Cov<0 负相关
x高于均值,y大多低于均值;
x低于均值,y大多高于均值。
乘积大多负数 → 平均后<0
👉 此消彼长
例:价格越高,销量越低。
3. Cov≈0 不线性相关
正负乘积相互抵消,加起来趋近0
👉 涨跌没关系,无线性联动。
三、缺点(为什么还要相关系数)
协方差受量纲影响:
身高用cm和m去算,Cov数值天差地别,没法直接比相关强弱。
于是归一化得到相关系数:
ρ=σxσyCov(X,Y),−1≤ρ≤1
四、协方差矩阵衔接之前几何
- 对角线:Cov(X,X)=Var(X) 自身方差(自己波动大小)
- 非对角线:不同变量间协方差(互相联动)
整张矩阵 = 所有维度两两之间涨跌联动汇总,对应数据椭圆倾斜与胖瘦。
极简口诀
同大同小协方差正,一大一小协方差负,杂乱无章趋近于零。
需要举一组5个数字,手动算一遍Cov吗?
协方差矩阵的作用(通俗+实用总结)
协方差矩阵 Σ:刻画多维随机变量各个维度之间的波动相关性,是统计学、机器学习、图像处理、金融、PCA的核心工具。
设 n 维变量 X=(X1,X2,…,Xn),矩阵元素:
Σij=Cov(Xi,Xj)=E[(Xi−μi)(Xj−μj)]
- 对角线 Σii=Var(Xi):第 i 维自身方差(自身波动大小)
- 非对角线 Σij:Xi,Xj 协方差,正负代表两变量同向/反向变化
一、四大核心用途
1. 衡量多变量相关性
- Cov>0:两变量同涨同跌;
- Cov<0:一涨一跌反向变动;
- Cov≈0:线性无关。
相关系数:ρij=Var(Xi)Var(Xj)Cov(Xi,Xj),由协方差矩阵换算。
举例:金融多只股票收益率协方差矩阵,看个股涨跌联动。
2. PCA主成分分析(最常用)
PCA本质:对协方差矩阵做特征值分解
Σv=λv
- 特征值 λ:对应方向数据方差大小(信息量);
- 特征向量:新坐标轴方向。
用途:降维、去冗余,丢掉小特征值维度,保留主要信息。
图像处理压缩、数据特征筛选全靠它。
3. 多维正态分布建模
n 维正态分布:
X∼N(μ,Σ)
均值向量 μ 控制中心位置,协方差矩阵 Σ 控制椭圆形状、倾斜度:
- 对角阵(无相关):椭圆轴平行坐标轴;
- 非对角非零(变量相关):椭圆倾斜。
高斯混合模型GMM、卡尔曼滤波全部依赖协方差矩阵。
4. 优化与风险度量
- 马科维茨资产组合:用收益率协方差矩阵计算组合整体方差(投资风险),优化配比最小化风险;
- 马氏距离:d2=(x−μ)TΣ−1(x−μ),消除量纲+相关性影响,异常检测、离群点判别。
二、附加工程用途
- 卡尔曼滤波:协方差矩阵实时更新预测不确定性;
- 机器学习:高斯过程GP、多维贝叶斯建模核心;
- 信号处理:多通道信号去相关、阵列信号滤波。
三、一句话精简
协方差矩阵 = 多维数据的“相关性+波动大小”汇总表,用来算相关、降维、建模分布、算风险距离。
协方差矩阵几何意义(直观几何:椭圆变换)
核心结论:
协方差矩阵 Σ 等价于一个线性变换,把单位圆变成高斯分布的等概率椭圆(置信椭圆);特征向量=椭圆主轴方向,特征值=主轴半轴长平方。
1. 数学关系
对实对称半正定协方差矩阵做特征分解:
Σ=VΛVT
- V:正交矩阵,列向量 = 椭圆长短轴方向(特征向量)
- Λ=diag(λ1,λ2,…,λn),λi 是特征值
- 二维:λ1,λ2 是椭圆两个半轴长度
二维等概率椭圆方程
多维正态等高线满足:
(x−μ)TΣ−1(x−μ)=C
C 为常数 → 几何就是中心在μ的椭圆。
2. 分3种典型几何形态(二维最好理解)
① Σ 对角阵、λ1=λ2(σx=σy,Cov=0)
Σ=[σ200σ2]
椭圆→正圆,x、y无关、波动幅度一样,坐标轴就是主轴。
② Σ 对角阵、λ1=λ2、非对角元=0
Σ=[σ1200σ22]
椭圆轴和x/y坐标轴平行,变量互不相关,长短轴分别沿坐标轴。
③ 非对角元≠0(Cov(X,Y)=0)
Σ=[σx2CovCovσy2]
椭圆倾斜旋转:
- Cov>0:椭圆向右上倾斜(X、Y正相关)
- Cov<0:椭圆向左上倾斜(X、Y负相关)
协方差正负决定椭圆倾斜方向,方差决定胖瘦。
3. 线性变换视角(最本质几何)
- 原始标准正态 Z∼N(0,I),分布是单位圆;
- 做线性变换:X=VΛZ+μ
- Λ:沿坐标轴拉伸/压缩(控制半轴)
- V:整体旋转(控制椭圆朝向)
协方差矩阵 = 拉伸+旋转的复合线性变换算子
4. 延伸:马氏距离几何
dM2=(x−μ)TΣ−1(x−μ)
马氏距离就是把椭圆空间还原成单位圆后的欧式距离:
- 椭圆上所有点马氏距离相等;
- 消除变量量纲、相关性带来的几何畸变。
5. 高维推广(n维)
n维协方差对应n维超椭球:
- 特征向量:超椭球各个主轴方向
- λi:各主轴长度
PCA几何:把椭球旋转对齐坐标轴,砍掉短轴(小特征值)实现降维。
一句话总结
协方差矩阵在几何上 = 描述数据分布椭球的形状、大小、朝向;特征向量定方向,特征值定半轴长短。
一、举实例:3种协方差 + 对应椭圆
设二维数据中心 μ=(0,0),等高线:xTΣ−1x=1
案例1:Σ1=[4004],λ1=λ2=4,半轴λ=2
- 无相关、X,Y方差相同
- 几何:圆心在原点的正圆,半径=2
案例2:Σ2=[9001],λ1=9,λ2=1,半轴3、1
- 协方差=0,变量无关
- 几何:正椭圆,长短轴平行x、y坐标轴,x轴拉长3倍,y轴1倍
案例3:Σ3=[5335](正相关,Cov=3>0)
特征值 λ1=8,λ2=2
特征向量:(21,21)、(−21,21)
- 半轴:8≈2.828,2≈1.414
- 主轴沿 y=x(一、三象限),椭圆向右上倾斜(正相关)
若 Cov<0,主轴沿 y=−x,椭圆往二四象限斜。
二、线性变换拆解(几何本源)
Σ=VΛV⊤⇒A=VΛ,X=AZ
Z∼N(0,I):数据落在单位圆
- Λ:沿坐标轴拉伸(决定半轴长短)
- V:正交旋转(决定椭圆朝哪边歪)
A 就是把单位圆→分布椭圆的变换矩阵,Σ=AA⊤。
三、马氏距离几何
dM2=x⊤Σ−1x=C
- C=1:落在椭圆上,马氏距离全相等
- 坐标经过 Σ−1/2 变换后 → 变回单位圆,马氏距离=欧式距离
四、PCA几何一句话
协方差特征分解=旋转椭球让主轴对准坐标轴,丢掉短主轴(小特征值),完成降维。
需要我换一组负相关协方差再算一遍对比吗?









视频来源
www.bilibili.com/video/BV1iY…