主成分分析引入

131 阅读3分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情

在没有进行主成分分析算法的讲解之前,我们先通过几个例子来说明主成分分析的作用以及必要性。

 

例1:单位引起的特征重复,一个与密度有关的特征矢量,它里面有这样两个密度特征,克/立方厘米和千克/立方米明显是一个特征,也就是有一个特征纯粹是多余的。

 

例2:拿到一个数学系的本科生期末考试成绩单,里面有三列,第一列是对数学的兴趣程度,第二列是复习时间,还有第三列是考试成绩。要想学好数学,浓厚的兴趣是前提条件,也就是说第三项与第一项强相关,当然第三项和第二项也是强相关。既然一和二都与三强相关,那就意味着相对于三来说,一和二处于同等重要的状态。那么我们是可以考虑把第一项和第二项进行合并的。

例3:在分析数据时,我们偶尔会遇到列(代表特征量)大于行(代表数据量)的数据,也就是低定矩阵。比如我们研究收入与个人综合素质之间的关系,综合素质就是一个典型的多特征矢量数据。(受教育程度,专业技能,人品,人际关系处理能力,执行力,创造力,...等等)。当数据量较少时,即当行数少于列数时是低定矩阵(A),低定矩阵是病态矩阵,它没有唯一确定的解,而往往有无穷多的解。由于这种不稳而定性,通过其做线性回归时(因为无穷多的α满足A.TAα=A.Tb这个等式,那么Aα≈b几率会很大,这种情况下很容易造成过拟合)往往会产生过拟合。

例4:下面这个例子十分经典,来自于网络。假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者出现频率也类似,是不是可以合成为一个特征呢?

对于与目标的无关特征我们可以立刻把其剔除,比如,人名是与收入无关的特征,我们立马可以把人名特征删除。然而这里的特征删除却没有那么简单。

这里我们所谈的特征很多是和目标值有关的,但里面存在噪声或者冗余。在这种情况下,需要一种特征降维的方法来减少特征数,减少噪音和冗余,减少过度拟合的可能性。

接下来我们看一下PCA如何降噪减余的:

Pca的降噪减余是依据数据协方差矩阵的特征量就是理想的K维特征矢量这一事实而实现的。

但是,为什么呢?