1/简介
它是最常用的降维方法之一
将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的变量被称为主成分。
每一个主成分都是由原本所有的变量转换出来的。
主成分更加具有区分度,而且由原来的高维,变成了低维,更容易理解和可视化。
可以使用两种方法进行PCA,分别是特征分解和奇异值分解。
PCA就是将高维的数据通过线性变换投影到低维空间中去,要遵循一个指导思想:
找出最能够代表原始数据的投影方法
希望降维之后的数据不能失真,
也就是说:被降掉的那些维度只能是那些噪声或者冗余的数据
冗余:就是去除线性相关的特征,因为可以被其他特征代表,所以这部分数据是多余的
噪声:就是去掉较小特征值对应的特征向量
因为特征值的大小就反映了变换后在特征向量方向上变换的幅度,幅度越大,说明这个方向上的元素差异越大,换句话说这个方向上的特征值更分散。
2/降维可以解决的问题?
降维致力于解决三类问题。
第一:降维可以缓解维度灾难问题
第二:降维可以在压缩数据的同时让信息损失最小化,及数据不失真
第三:理解拥有几百个维度的数据很困难,两三个维度的数据通过可视化更容易理解