机器学习知识点复习(下)
一、集成学习
集成学习通过构建并结合多个学习器来完成学习任务
同质集成
集成中只包含同种类型的“个体学习器”。
相应的学习算法称为“基学习算法” ,个体学习器亦称“基学习器” (base learner)
异质集成
个体学习器由不同的学习算法生成。不存在“基学习算法”,常称作“组件学习器”
为什么集成?
集成的泛化性能通常显著优于单个学习器的泛化性能
怎样得到好的集成效果?
令个体学习器 “好而不同”
典型的集成学习算法
-
属于序列化方法(个体学习器间存在强依赖关系)
- AdaBoost
-
属于并行化方法(个体学习器间不存在强依赖关系)
-
Bagging
-
Random Forest(随机森林)
-
Boosting工作机制
-
从初始训练集得到一个基学习器;
-
根据基学习器的表现,调整训练样本分布,使得先前基学习器分类错误的样本后续受到更多关注,基于调整后样本分布训练下一个基学习器
-
重复步骤2,直至达到预定基学习器数目T,并将T个结果加权结合
Bagging工作机制
是并行式集成学习方法
- 使用自助采样法形成多个互相有交叠的采样子集,使得基于不同训练集得到具有差异性的基学习器
- 投票法(针对分类任务)或平均法(针对回归任务)结和各基学习器结果
二、
降维
降维的概念:经过数学变换,将原始高维属性空间转变为一个低维子空间
降维的方法:多维缩放、主成分分析(PCA)
- MDS算法
基于线性变换来进行降维的方法称为线性降维方法
非线性降维的常用方法:核化线性降维、流形学习
聚类
是一种无监督学习方法,通过对无标记训练样本的学习来揭示数据的内在性质及规律。
聚类的目标是将数据样本划分为若干个通常不相交的“簇”。每个簇可能对应潜在的概念(类别),事先未知
聚类过程仅能自动形成簇结构,簇标记事后定义
聚类的基本要素:
- 性能度量:通过何种性能度量来评估聚类效果的好坏
- 距离计算:定义数据之间的相似度
- 类别划分策略(聚类算法):通过何种类别划分方式使得类别划分结果达到有效性函数
注: 聚类的“好坏”不存在绝对标准
特征选择
特征选择:从给定的特征集合中选择出相关特征子集的过程
特征选择是一个数据预处理过程
特征选择的原因:
-
减轻维度灾难,在少量属性上构建模型
-
降低学习难度,留下关键信息
特征选择的一般方法:
- 产生初始候选子集
- 评价候选子集的好坏
- 基于评价结果产生下一个候选子集
- 回到步骤
2
上述特征选择的关键环节是子集搜索和子集评价
子集搜索:
- 前向搜索:逐渐增加相关特征
- 后向搜索:从完整的特征集合开始,逐渐减少特征
- 双向搜索:每一轮逐渐增加相关特征,同时减少无关特征
KNN流程
KNN即k近邻学习,是一种常用的监督学习方法
- 确定训练样本,以及某种距离度量
- 距离度量方式:欧式距离、曼哈顿距离
- 对于某个给定的测试样本,找到训练集中距离最近的k个样本
- 基于k个“邻居”的信息来进行预测
通常,分类问题使用“投票法”获得预测结果,对于回归问题使用“平均法”获得预测结果。还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。
-
投票法:选择这k个样本中出现最多的类别标记作为预测结果。
-
平均法:将这k个样本的实值输出标记的平均值作为预测结果。
三、
监督学习和无监督学习
区别在于数据是否有标签
- 监督学习有标签
- 无监督学习无标签
四、
L2范数
考虑最简单的线性回归模型,以平方误差为损失函数,并引入L₂范数正则化项防止过拟合,则有,岭回归:
效果:参数小的模型更简单,抗扰动能力强
L1范数
将L₂范数替换为L₁范数正则化,则有LASSO
效果:易获得稀疏解,是一种嵌入式特征选择方法