LDA降维与PCA的区别

457 阅读2分钟

LDA简介

LDA根据带标签的数据点,将点投影到维度更低的空间中,使得投影后的点,**按照类别进行区分,同一类别的数据点,在投影后的空间中更接近。**这时类间距离最大化并且类内距离最小

LDA的数学推导

举一个简单的例子,假设有两个样本,均值分别是,投影方向为,则投影后两个样本的距离就可以表示为:PCA降维全过程文章的补充中有投影的计算

接着,我们需要表示出投影后样本的方差

即问题转换为1式尽可能的大,2、3式尽可能的小

此时我们的优化目标可以写成

将1,2,3式代入得

分别定义类间散度矩阵类内散度矩阵,如下

然后将优化目标简化为

由于中的分子和分母都是关于的二次项,因此的解与的长度无关,只和方向有关。假设,优化后的目标函数为

和PCA一样使用拉格朗日乘子法,得到

整理得

至此,最大化的目标就对应了矩阵的最大特征值,而投影方向就是这个特征值对应的特征向量,然后可以将LDA扩展到高维情况。

LDA的过程

  • 计算每个类别的均值,全局样本均值
  • 计算类内散度矩阵,类间散度矩阵
  • 对矩阵做特征值分解
  • 取最大的个特征值所对应的特征向量
  • 计算投影矩阵

PCA和LDA的比较

  • 相似性

    从过程来看,PCA和LDA有很大的相似性,最后都是求某一矩阵的特征值,投影矩阵即该特征值对应的特征向量

  • 差异

    • PCA为非监督降维,LDA是有监督降维

    • PCA希望投影后的数据方差尽可能的大,因为方差越大,则包含的信息越多;而LDA则希望投影后相同类别的组内方差小,组间方差大。LDA能合理的运用标签信息,使得投影后的维度具有判别性,不同类别的数据尽可能的分开

    • 有标签就尽可能的利用标签数据(LDA),而对于纯粹的非监督任务,还是使用PCA降维