携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情
在最大方差理论里,我们所做的本质是是寻找一条直线,以致数据点在其上的投影点有最大方差;最小平方误差理论沿用最大方差理论的思路,继续寻找一条直线,以致投影点与原数据点平方误差最小。
假设n个样本点
事先给定,每个样本点是m维。那么投影点与原数据点的平方误差为:
我们的目的就是寻找直线使其取最小值。
确定一条直线的方法通常是,确定一个点,然后找到其方向即可.
这个待确定点一定要与所有样本点都保持亲密的关系,也就是说他应该使:
达到最小值。
假设m为样本均值,即:
最终分解成两个部分,其中后面的部分与x0无关,也就是说他是常数。我们只需使第一部分取最小值就可以实现达到最小值。即:
时,有最小值。这也就是说x0是样本点均值。
下面我们确定这条直线的方向:
假设这条直线的方向是v,那么这条直线上的任意一个点是:
其中v是单位方向矢量。
因为样本点的投影点也是这条直线上的点,因此这些投影点可以表示为:
代入到(p-3)得:
求偏微分得:
把(p-5)代入到J(v,λ1,...,λn)
其中,S被称作散点矩阵也叫协方差矩阵(与理论协方差矩阵不一样额) 。
J(v)分成两个部分,后面是常数,与求极值无关,因此只需关注。也就是说,这里只需求
的最大值即可。
S是正定矩阵:因为S的对称性决定其可以对角化,对角化的真正含义是通过基底变化把在老基底的S转化为在新基底下以对角矩阵形式出现的新矩阵S’。S是协方差矩阵(少了分母(n-1))那么S’也一定是协方差矩阵。基地变换仅仅是改变了参与协方差矩阵运算的随机变量矢量的元素,并没有改变协方差的运算公式,因此在矩阵对角线上还是方差。方差通常大于或者等于0,也就是说对角矩阵S’的对角线上是大于或者等于0的实数,这意味着S的特征值均大于或者等于0。也即S是半正定矩阵。我们知道方差等于0,对于我们数据分析来说并没有太多意义,因此我们要求方差不为0。因此S只能是正定矩阵。