主成分分析引入携手创作，共同成长！这是我参与「掘金日新计划 · 8 月更文挑战」的第1天，点击查看活动详情在没有进行主

携手创作，共同成长！这是我参与「掘金日新计划 · 8 月更文挑战」的第1天，点击查看活动详情

在没有进行主成分分析算法的讲解之前，我们先通过几个例子来说明主成分分析的作用以及必要性。

例1：单位引起的特征重复，一个与密度有关的特征矢量，它里面有这样两个密度特征，克/立方厘米和千克/立方米明显是一个特征，也就是有一个特征纯粹是多余的。

例2：拿到一个数学系的本科生期末考试成绩单，里面有三列，第一列是对数学的兴趣程度，第二列是复习时间，还有第三列是考试成绩。要想学好数学，浓厚的兴趣是前提条件，也就是说第三项与第一项强相关，当然第三项和第二项也是强相关。既然一和二都与三强相关，那就意味着相对于三来说，一和二处于同等重要的状态。那么我们是可以考虑把第一项和第二项进行合并的。

例3：在分析数据时，我们偶尔会遇到列（代表特征量）大于行（代表数据量）的数据，也就是低定矩阵。比如我们研究收入与个人综合素质之间的关系，综合素质就是一个典型的多特征矢量数据。（受教育程度，专业技能，人品，人际关系处理能力，执行力，创造力，...等等）。当数据量较少时，即当行数少于列数时是低定矩阵（A），低定矩阵是病态矩阵，它没有唯一确定的解，而往往有无穷多的解。由于这种不稳而定性，通过其做线性回归时（因为无穷多的α满足A.TAα=A.Tb这个等式，那么Aα≈b几率会很大，这种情况下很容易造成过拟合）往往会产生过拟合。

例4：下面这个例子十分经典，来自于网络。假设在IR中我们建立的文档-词项矩阵中，有两个词项为“learn”和“study”，在传统的向量空间模型中，认为两者独立。然而从语义的角度来讲，两者是相似的，而且两者出现频率也类似，是不是可以合成为一个特征呢？

对于与目标的无关特征我们可以立刻把其剔除，比如，人名是与收入无关的特征，我们立马可以把人名特征删除。然而这里的特征删除却没有那么简单。

这里我们所谈的特征很多是和目标值有关的，但里面存在噪声或者冗余。在这种情况下，需要一种特征降维的方法来减少特征数，减少噪音和冗余，减少过度拟合的可能性。

接下来我们看一下PCA如何降噪减余的：

Pca的降噪减余是依据数据协方差矩阵的特征量就是理想的K维特征矢量这一事实而实现的。

但是，为什么呢？