协方差 Cov(X,Y) 定义公式和协方差矩阵协方差矩阵的集合表达一、协方差 Cov(X,Y) 定义公式 1. 总体

一、协方差 Cov(X,Y) 定义公式

1. 总体定义

$\mathrm{Cov}(X,Y)=E\left[\,(X-\mu_x)(Y-\mu_y)\,\right]$ $\mu_x=E(X),\mu_y=E(Y)$ 是两个变量均值。

2. 样本协方差（实际算数据用）

$\mathrm{Cov}(X,Y)=\frac1{n-1}\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)$

二、大白话通俗解释

协方差：衡量两个变量是同涨同跌，还是一涨一跌反向走。 拿每个数据： $(x-\bar x)$ ：这个x偏离自己平均值多少 $(y-\bar y)$ ：这个y偏离自己平均值多少相乘再平均，结果正负定关系：

1. $\boldsymbol{Cov>0}$ 正相关

大部分数据： x大于均值时，y也大于均值； x小于均值时，y也小于均值。乘积大多为正数 → 平均后>0 👉 同升同降 例：身高越高、体重往往越重。

2. $\boldsymbol{Cov<0}$ 负相关

x高于均值，y大多低于均值； x低于均值，y大多高于均值。乘积大多负数 → 平均后<0 👉 此消彼长 例：价格越高，销量越低。

3. $\boldsymbol{Cov≈0}$ 不线性相关

正负乘积相互抵消，加起来趋近0 👉 涨跌没关系，无线性联动。

三、缺点（为什么还要相关系数）

协方差受量纲影响：身高用cm和m去算，Cov数值天差地别，没法直接比相关强弱。于是归一化得到相关系数： $\rho=\frac{\mathrm{Cov}(X,Y)}{\sigma_x\sigma_y},\quad -1\le\rho\le1$

四、协方差矩阵衔接之前几何

对角线： $\mathrm{Cov}(X,X)=Var(X)$ 自身方差（自己波动大小）
非对角线：不同变量间协方差（互相联动）

整张矩阵 = 所有维度两两之间涨跌联动汇总，对应数据椭圆倾斜与胖瘦。

极简口诀

同大同小协方差正，一大一小协方差负，杂乱无章趋近于零。

需要举一组5个数字，手动算一遍Cov吗？

协方差矩阵的作用（通俗+实用总结）

协方差矩阵 $\boldsymbol{\Sigma}$ ：刻画多维随机变量各个维度之间的波动相关性，是统计学、机器学习、图像处理、金融、PCA的核心工具。

设 $n$ 维变量 $\boldsymbol X=(X_1,X_2,\dots,X_n)$ ，矩阵元素： $\Sigma_{ij}=\mathrm{Cov}(X_i,X_j)=E[(X_i-\mu_i)(X_j-\mu_j)]$

对角线 $\Sigma_{ii}=\mathrm{Var}(X_i)$ ：第 $i$ 维自身方差（自身波动大小）
非对角线 $\Sigma_{ij}$ ： $X_i,X_j$ 协方差，正负代表两变量同向/反向变化

一、四大核心用途

1. 衡量多变量相关性

$\mathrm{Cov}>0$ ：两变量同涨同跌；
$\mathrm{Cov}<0$ ：一涨一跌反向变动；
$\mathrm{Cov}\approx0$ ：线性无关。

相关系数： $\rho_{ij}=\dfrac{\mathrm{Cov}(X_i,X_j)}{\sqrt{\mathrm{Var}(X_i)\mathrm{Var}(X_j)}}$ ，由协方差矩阵换算。

举例：金融多只股票收益率协方差矩阵，看个股涨跌联动。

2. PCA主成分分析（最常用）

PCA本质：对协方差矩阵做特征值分解 $\boldsymbol\Sigma \boldsymbol v=\lambda \boldsymbol v$

特征值 $\lambda$ ：对应方向数据方差大小（信息量）；
特征向量：新坐标轴方向。用途：降维、去冗余，丢掉小特征值维度，保留主要信息。

图像处理压缩、数据特征筛选全靠它。

3. 多维正态分布建模

$n$ 维正态分布： $\boldsymbol X\sim \mathcal N(\boldsymbol\mu,\boldsymbol\Sigma)$ 均值向量 $\boldsymbol\mu$ 控制中心位置，协方差矩阵 $\boldsymbol\Sigma$ 控制椭圆形状、倾斜度：

对角阵（无相关）：椭圆轴平行坐标轴；
非对角非零（变量相关）：椭圆倾斜。高斯混合模型GMM、卡尔曼滤波全部依赖协方差矩阵。

4. 优化与风险度量

马科维茨资产组合：用收益率协方差矩阵计算组合整体方差（投资风险），优化配比最小化风险；
马氏距离： $d^2=(\boldsymbol x-\boldsymbol\mu)^T\boldsymbol\Sigma^{-1}(\boldsymbol x-\boldsymbol\mu)$ ，消除量纲+相关性影响，异常检测、离群点判别。

二、附加工程用途

卡尔曼滤波：协方差矩阵实时更新预测不确定性；
机器学习：高斯过程GP、多维贝叶斯建模核心；
信号处理：多通道信号去相关、阵列信号滤波。

三、一句话精简

协方差矩阵 = 多维数据的“相关性+波动大小”汇总表，用来算相关、降维、建模分布、算风险距离。

协方差矩阵几何意义（直观几何：椭圆变换）

核心结论：协方差矩阵 $\boldsymbol\Sigma$ 等价于一个线性变换，把单位圆变成高斯分布的等概率椭圆（置信椭圆）；特征向量=椭圆主轴方向，特征值=主轴半轴长平方。

1. 数学关系

对实对称半正定协方差矩阵做特征分解： $\boldsymbol \Sigma = \boldsymbol V \boldsymbol \Lambda \boldsymbol V^T$

$\boldsymbol V$ ：正交矩阵，列向量 = 椭圆长短轴方向（特征向量）
$\boldsymbol\Lambda=\mathrm{diag}(\lambda_1,\lambda_2,\dots,\lambda_n)$ ， $\lambda_i$ 是特征值
二维： $\sqrt{\lambda_1},\sqrt{\lambda_2}$ 是椭圆两个半轴长度

二维等概率椭圆方程

多维正态等高线满足： $(\boldsymbol x-\boldsymbol \mu)^T\boldsymbol\Sigma^{-1}(\boldsymbol x-\boldsymbol \mu)=C$ $C$ 为常数 → 几何就是中心在 $\boldsymbol\mu$ 的椭圆。

2. 分3种典型几何形态（二维最好理解）

① $\boldsymbol\Sigma$ 对角阵、 $\lambda_1=\lambda_2$ （ $\sigma_x=\sigma_y,\mathrm{Cov}=0$ ）

$\boldsymbol\Sigma=\begin{bmatrix}\sigma^2 &0\\0&\sigma^2\end{bmatrix}$ 椭圆→正圆，x、y无关、波动幅度一样，坐标轴就是主轴。

② $\boldsymbol\Sigma$ 对角阵、 $\lambda_1\neq\lambda_2$ 、非对角元=0

$\boldsymbol\Sigma=\begin{bmatrix}\sigma_1^2 &0\\0&\sigma_2^2\end{bmatrix}$ 椭圆轴和x/y坐标轴平行，变量互不相关，长短轴分别沿坐标轴。

③ 非对角元≠0（ $\mathrm{Cov}(X,Y)\neq0$ ）

$\boldsymbol\Sigma=\begin{bmatrix}\sigma_x^2 &\mathrm{Cov}\\\mathrm{Cov}&\sigma_y^2\end{bmatrix}$ 椭圆倾斜旋转：

$\mathrm{Cov}>0$ ：椭圆向右上倾斜（X、Y正相关）
$\mathrm{Cov}<0$ ：椭圆向左上倾斜（X、Y负相关）协方差正负决定椭圆倾斜方向，方差决定胖瘦。

3. 线性变换视角（最本质几何）

原始标准正态 $Z\sim N(\boldsymbol0,\boldsymbol I)$ ，分布是单位圆；
做线性变换： $\boldsymbol X=\boldsymbol V\sqrt{\boldsymbol\Lambda}\boldsymbol Z+\boldsymbol\mu$
- $\sqrt{\boldsymbol\Lambda}$ ：沿坐标轴拉伸/压缩（控制半轴）
- $\boldsymbol V$ ：整体旋转（控制椭圆朝向）

协方差矩阵 = 拉伸+旋转的复合线性变换算子

4. 延伸：马氏距离几何

$d_M^2=(\boldsymbol x-\mu)^T\Sigma^{-1}(\boldsymbol x-\mu)$ 马氏距离就是把椭圆空间还原成单位圆后的欧式距离：

椭圆上所有点马氏距离相等；
消除变量量纲、相关性带来的几何畸变。

5. 高维推广（n维）

n维协方差对应n维超椭球：

特征向量：超椭球各个主轴方向
$\sqrt{\lambda_i}$ ：各主轴长度 PCA几何：把椭球旋转对齐坐标轴，砍掉短轴（小特征值）实现降维。

一句话总结

协方差矩阵在几何上 = 描述数据分布椭球的形状、大小、朝向；特征向量定方向，特征值定半轴长短。

一、举实例：3种协方差 + 对应椭圆

设二维数据中心 $\mu=(0,0)$ ，等高线： $\boldsymbol x^T\Sigma^{-1}\boldsymbol x=1$

案例1： $\boldsymbol{\Sigma}_1=\begin{bmatrix}4&0\\0&4\end{bmatrix}$ ， $\lambda_1=\lambda_2=4$ ，半轴 $\sqrt\lambda=2$

无相关、 $X,Y$ 方差相同
几何：圆心在原点的正圆，半径=2

案例2： $\boldsymbol{\Sigma}_2=\begin{bmatrix}9&0\\0&1\end{bmatrix}$ ， $\lambda_1=9,\lambda_2=1$ ，半轴 $3、1$

协方差=0，变量无关
几何：正椭圆，长短轴平行x、y坐标轴，x轴拉长3倍，y轴1倍

案例3： $\boldsymbol{\Sigma}_3=\begin{bmatrix}5&3\\3&5\end{bmatrix}$ （正相关， $\mathrm{Cov}=3>0$ ）

特征值 $\lambda_1=8,\lambda_2=2$ 特征向量： $(\frac1{\sqrt2},\frac1{\sqrt2})$ 、 $(-\frac1{\sqrt2},\frac1{\sqrt2})$

半轴： $\sqrt8\approx2.828,\sqrt2\approx1.414$
主轴沿 $y=x$ （一、三象限），椭圆向右上倾斜（正相关）

若 $\mathrm{Cov}<0$ ，主轴沿 $y=-x$ ，椭圆往二四象限斜。

二、线性变换拆解（几何本源）

$\Sigma=V\Lambda V^\top \Rightarrow A=V\sqrt\Lambda,\quad X=AZ$ $Z\sim N(0,I)$ ：数据落在单位圆

$\sqrt\Lambda$ ：沿坐标轴拉伸（决定半轴长短）
$V$ ：正交旋转（决定椭圆朝哪边歪）

$\boldsymbol A$ 就是把单位圆→分布椭圆的变换矩阵， $\Sigma=AA^\top$ 。

三、马氏距离几何

$d_M^2=\boldsymbol x^\top\Sigma^{-1}\boldsymbol x=C$

$C=1$ ：落在椭圆上，马氏距离全相等
坐标经过 $\Sigma^{-1/2}$ 变换后 → 变回单位圆，马氏距离=欧式距离

四、PCA几何一句话

协方差特征分解=旋转椭球让主轴对准坐标轴，丢掉短主轴（小特征值），完成降维。

需要我换一组负相关协方差再算一遍对比吗？在这里插入图片描述

在这里插入图片描述

在这里插入图片描述视频来源 www.bilibili.com/video/BV1iY…

协方差 Cov(X,Y) 定义公式 和协方差矩阵 协方差矩阵的集合表达