主成分分析PCA

174 阅读1分钟
1/简介
    它是最常用的降维方法之一
    将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的变量被称为主成分。
    每一个主成分都是由原本所有的变量转换出来的。
    主成分更加具有区分度,而且由原来的高维,变成了低维,更容易理解和可视化。
    可以使用两种方法进行PCA,分别是特征分解和奇异值分解。
    PCA就是将高维的数据通过线性变换投影到低维空间中去,要遵循一个指导思想:
        找出最能够代表原始数据的投影方法
        希望降维之后的数据不能失真,
        也就是说:被降掉的那些维度只能是那些噪声或者冗余的数据
        冗余:就是去除线性相关的特征,因为可以被其他特征代表,所以这部分数据是多余的
        噪声:就是去掉较小特征值对应的特征向量
        因为特征值的大小就反映了变换后在特征向量方向上变换的幅度,幅度越大,说明这个方向上的元素差异越大,换句话说这个方向上的特征值更分散。
 
2/降维可以解决的问题?
    降维致力于解决三类问题。
       第一:降维可以缓解维度灾难问题
       第二:降维可以在压缩数据的同时让信息损失最小化,及数据不失真
       第三:理解拥有几百个维度的数据很困难,两三个维度的数据通过可视化更容易理解