机器学习知识点复习（下）

一、集成学习

集成学习通过构建并结合多个学习器来完成学习任务

同质集成

集成中只包含同种类型的“个体学习器”。

相应的学习算法称为“基学习算法” ，个体学习器亦称“基学习器” (base learner)

异质集成

个体学习器由不同的学习算法生成。不存在“基学习算法”，常称作“组件学习器”

为什么集成？

集成的泛化性能通常显著优于单个学习器的泛化性能

怎样得到好的集成效果？

令个体学习器 “好而不同”

典型的集成学习算法

属于序列化方法（个体学习器间存在强依赖关系）
- AdaBoost
属于并行化方法（个体学习器间不存在强依赖关系）
- Bagging
- Random Forest（随机森林）

Boosting工作机制

从初始训练集得到一个基学习器；
根据基学习器的表现，调整训练样本分布，使得先前基学习器分类错误的样本后续受到更多关注，基于调整后样本分布训练下一个基学习器
重复步骤2，直至达到预定基学习器数目T，并将T个结果加权结合

Bagging工作机制

是并行式集成学习方法

使用自助采样法形成多个互相有交叠的采样子集，使得基于不同训练集得到具有差异性的基学习器
投票法（针对分类任务）或平均法（针对回归任务）结和各基学习器结果

二、

降维

降维的概念：经过数学变换，将原始高维属性空间转变为一个低维子空间

降维的方法：多维缩放、主成分分析（PCA）

MDS算法

基于线性变换来进行降维的方法称为线性降维方法

非线性降维的常用方法：核化线性降维、流形学习

聚类

是一种无监督学习方法，通过对无标记训练样本的学习来揭示数据的内在性质及规律。

聚类的目标是将数据样本划分为若干个通常不相交的“簇”。每个簇可能对应潜在的概念（类别），事先未知

聚类过程仅能自动形成簇结构，簇标记事后定义

聚类的基本要素：

性能度量：通过何种性能度量来评估聚类效果的好坏
距离计算：定义数据之间的相似度
类别划分策略（聚类算法）：通过何种类别划分方式使得类别划分结果达到有效性函数

注: 聚类的“好坏”不存在绝对标准

特征选择

特征选择：从给定的特征集合中选择出相关特征子集的过程

特征选择是一个数据预处理过程

特征选择的原因：

减轻维度灾难，在少量属性上构建模型
降低学习难度，留下关键信息

特征选择的一般方法：

产生初始候选子集
评价候选子集的好坏
基于评价结果产生下一个候选子集
回到步骤2

上述特征选择的关键环节是子集搜索和子集评价

子集搜索：

前向搜索：逐渐增加相关特征
后向搜索：从完整的特征集合开始，逐渐减少特征
双向搜索：每一轮逐渐增加相关特征，同时减少无关特征

KNN流程

KNN即k近邻学习，是一种常用的监督学习方法

确定训练样本，以及某种距离度量
- 距离度量方式：欧式距离、曼哈顿距离
对于某个给定的测试样本，找到训练集中距离最近的k个样本
基于k个“邻居”的信息来进行预测

通常，分类问题使用“投票法”获得预测结果，对于回归问题使用“平均法”获得预测结果。还可基于距离远近进行加权平均或加权投票，距离越近的样本权重越大。

投票法：选择这k个样本中出现最多的类别标记作为预测结果。
平均法：将这k个样本的实值输出标记的平均值作为预测结果。

三、

监督学习和无监督学习

区别在于数据是否有标签

监督学习有标签
无监督学习无标签

四、

L2范数

考虑最简单的线性回归模型，以平方误差为损失函数，并引入L₂范数正则化项防止过拟合，则有，岭回归：

效果：参数小的模型更简单，抗扰动能力强

L1范数

将L₂范数替换为L₁范数正则化，则有LASSO

效果：易获得稀疏解，是一种嵌入式特征选择方法