LDA简介
LDA根据带标签的数据点,将点投影到维度更低的空间中,使得投影后的点,**按照类别进行区分,同一类别的数据点,在投影后的空间中更接近。**这时类间距离最大化并且类内距离最小
LDA的数学推导
举一个简单的例子,假设有两个样本,均值分别是
,投影方向为
,则投影后两个样本的距离就可以表示为:PCA降维全过程文章的补充中有投影的计算
接着,我们需要表示出投影后样本的方差
即问题转换为1式尽可能的大,2、3式尽可能的小
此时我们的优化目标可以写成
将1,2,3式代入得
分别定义类间散度矩阵和类内散度矩阵
,如下
然后将优化目标简化为
由于中的分子和分母都是关于
的二次项,因此
的解与
的长度无关,只和方向有关。假设
,优化后的目标函数为
和PCA一样使用拉格朗日乘子法,得到
整理得
至此,最大化的目标就对应了矩阵的最大特征值,而投影方向就是这个特征值对应的特征向量,然后可以将LDA扩展到高维情况。
LDA的过程
- 计算每个类别的均值
,全局样本均值
- 计算类内散度矩阵
,类间散度矩阵
- 对矩阵
做特征值分解
- 取最大的
个特征值所对应的特征向量
- 计算投影矩阵
PCA和LDA的比较
-
相似性
从过程来看,PCA和LDA有很大的相似性,最后都是求某一矩阵的特征值,投影矩阵即该特征值对应的特征向量
-
差异
-
PCA为非监督降维,LDA是有监督降维
-
PCA希望投影后的数据方差尽可能的大,因为方差越大,则包含的信息越多;而LDA则希望投影后相同类别的组内方差小,组间方差大。LDA能合理的运用标签信息,使得投影后的维度具有判别性,不同类别的数据尽可能的分开
-
有标签就尽可能的利用标签数据(LDA),而对于纯粹的非监督任务,还是使用PCA降维
-