PCA理论的意义和优缺点

530 阅读2分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情

把维度为n的高维度数据降到维度为m的低维度数据,并保持数据信息最小损失度。这种独特的性质可以被应用到数据压缩或者模型简化。然而这种压缩要以保证数据信息的低损失率为前提。PCA算法的信息低损失率是通过寻找拥有高百分比特征值比的特征值进而选取所对应的特征矢量来实现的。特征值比是特征值占总体特征值的百分比。

PCA技术的优点:

如上所述;PCA技术是对数据进行降维的处理。我们可以对新求出的“特征”向量的重要性(特征值比)进行排序,根据其重要性以及分析业务的实际状况取前面最重要的部分,将后面的维数省去,可以达到降维从而简化模型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。

PCA技术优点:PCA是无参数降维,就是说,它的降维除了数据,不需要设置额外的参数对其计算进行干涉。简言之,它是完全无参数限制的,最后的结果只与数据相关,与用户是独立的。 

然而这个优点有时候却成为了缺点,为什么呢。因为有时候各数据之间的相互关联特征,或者每个数据的独立特征不是隐含在数据中的,而是事先已经被我们所了解,或者至少部分了解。如果我们想依据我们所知道的通过对某些参数进行设置来干涉PCA计算过程显然是不可能的。如果通过事先了解到的数据特征对数据进行预处理然后在进行PCA计算在很大程度上势必提高计算的灵活性和适用范围以及计算效率。这样的特殊的PCA就是目前流行的kernel-PCA(数据分析二)。它与普通PCA最大的区别就是拥有根据先验知识的预处理。

PCA只适合高斯分布,非高斯分布要用ICA来求解。那将是另一个机器算法的内容。