考试-机器学习复习/简单总结西瓜书(10.降维)

170 阅读3分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第十五天,点击查看活动详情

总结:此文为12月更文计划第十五天第三十篇。

这也是我要复习西瓜书的最后一篇,我的西瓜书复习专栏也就结束了。

一共写了12篇文章,从12.9-12.11

降维

降维是将训练数据中的样本从高维空间转换到低位空间,该过程与信息论中有损压缩概念密切相关,不存在完全无损的降维。

降维是指通过保留一些比较重要的特征,去除一些冗余的特征,减少数据特征的维度。而特征的重要性取决于该特征能够表达多少数据集的信息,也取决于使用什么方法进行降维。一般情况会先使用线性的降维方法再使用非线性的降维方法,通过结果去判断哪种方法比较合适。

降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。

在哪里用到降维?

1)特征维度过大,可能会导致过拟合时

2)某些样本数据不足的情况(缺失值很多)

3)特征间的相关性比较大时

降维的好处?

(1)节省存储空间;

(2)加速计算速度,维度越少,计算量越少,并且能够使用那些不适合于高维度的算法;

(3)去除一些冗余的特征(原数据中既有平方米和平方英里的特征–即相关性大的特征)

(4)便于观察和挖掘信息(如将数据维度降到2维或者3维使之能可视化)

(5)特征太多或者太复杂会使得模型过拟合。 缓解维数灾难的一个重要途径是降维(dimension reduction) 即通过某种数学变换,将原始高维属性空间转变为一个低维“子空间” (subspace),在这个子空间中样本密度大幅度提高,距离计算也变得更为容易。

k近邻(k-Nearest Neighbor, kNN)

kNN学习是一种常用的监督学习方法:

确定训练样本,以及某种距离度量。 对于某个给定的测试样本,找到训练集中距离最近的k个样本,对于分类问题使用“投票法”获得预测结果,对于回归问题使用“平均法”获得预测结果。还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。

投票法:选择这k个样本中出现最多的类别标记作为预测结果。

平均法:将这k个样本的实值输出标记的平均值作为预测结果。

K近邻学习没有显式的训练过程,属于“懒惰学习”

“懒惰学习”(lazy learning): 此类学习技术在训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理。

“急切学习”(eager learning): 在训练阶段就对样本进行学习处理的方法。