「这是我参与11月更文挑战的第7天,活动详情查看:2021最后一次更文挑战」
在多元统计分析中,主成分分析(英语:Principal components analysis,PCA)是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量的值,这些不相关变量称为主成分(Principal Components)。具体地,主成分可以看做一个线性方程,其包含一系列线性系数来指示投影方向。PCA对原始数据的正则化或预处理敏感(相对缩放)。
基本思想
首先对数据 D 进行中心化,然后通过变换找到一个坐标轴,数据在新的坐标轴上投影,让数据在新坐标轴上投影数据分散的更开,也就是数据方差更大,其实也就是最小重构距离,也就是将数据一些相关特征移除。
数据
聊一聊
D={(x1,y1),(x2,y2),⋯,(xi,yi)}N
其中xi∈Rm
当 m=1 情况下,均值和方差
X=N1i=1∑NxiS=N1i=1∑N(xi−x)
当 m>1 情况下,均值和方差
X=N1i=1∑NxiS=N1i=1∑N(xi−x)(xi−x)T
接下来用矩阵形式表示期望和方差
期望
x=N1i=1∑Nxix=N1(x1,x2,⋯,xn)(1,1,⋯,1)Tx=N1XT1N
我们在之前线性问题,我们已经用 X 矩阵表示 N 个样本组成的矩阵,X 矩阵每一行为一个样本所以 X 为 n×m m 为样本的列,X=(x1,x2,⋯,xn)T 所以可以将 XT=(x1,x2,⋯,xn) 这里均值为 m×n 和 n×1 ,所以 x 为 m×1 的向量
方差
S=N1i=1∑N(xi−x)(xi−x)TS=(x1−x,x2−x,⋯,xN−x)−x(1,1,⋯,1)N1XT(IN−N11N1NT)(IN−N11N1NT)TX
H=(IN−N11N1NT)
那么 H 就有以下性质
H=HTH=H2
最后用矩阵形式来表示均值和方差
x=N1XT1NS=N1XTHX
数据投影
(xi−x)u1
L=i=1∑N((xi−x)Tu1)2s.t.u1Tu1=1
i=1∑Nu1T(xi−x)(xi−x)u1u1T(i=1∑N(xi−x)(xi−x))u1u1TSu1
u1^=argmaxu1TSu1u1Tu1=1
L(u,λ)=u1TSu1+λ(1−u1Tu1)
Su1=λu1