机器学习知识点复习(下)

187 阅读4分钟

机器学习知识点复习(下)

一、集成学习

集成学习通过构建并结合多个学习器来完成学习任务

同质集成

集成中只包含同种类型的“个体学习器”。

相应的学习算法称为“基学习算法” ,个体学习器亦称“基学习器” (base learner)

异质集成

个体学习器由不同的学习算法生成。不存在“基学习算法”,常称作“组件学习器

为什么集成?

集成的泛化性能通常显著优于单个学习器的泛化性能

怎样得到好的集成效果?

令个体学习器 “好而不同

典型的集成学习算法

  • 属于序列化方法(个体学习器间存在强依赖关系)

    • AdaBoost
  • 属于并行化方法(个体学习器间不存在强依赖关系)

    • Bagging

    • Random Forest(随机森林)

Boosting工作机制

  1. 初始训练集得到一个基学习器;

  2. 根据基学习器的表现,调整训练样本分布,使得先前基学习器分类错误的样本后续受到更多关注,基于调整后样本分布训练下一个基学习器

  3. 重复步骤2,直至达到预定基学习器数目T,并将T个结果加权结合

Bagging工作机制

并行式集成学习方法

  1. 使用自助采样法形成多个互相有交叠的采样子集,使得基于不同训练集得到具有差异性的基学习器
  2. 投票法(针对分类任务)或平均法(针对回归任务)结和各基学习器结果

二、

降维

降维的概念:经过数学变换,将原始高维属性空间转变为一个低维子空间

降维的方法:多维缩放、主成分分析(PCA)

  • MDS算法

基于线性变换来进行降维的方法称为线性降维方法

非线性降维的常用方法:核化线性降维、流形学习

聚类

是一种无监督学习方法,通过对无标记训练样本的学习来揭示数据的内在性质及规律。

聚类的目标是将数据样本划分为若干个通常不相交的“簇”。每个簇可能对应潜在的概念(类别),事先未知

聚类过程仅能自动形成簇结构,簇标记事后定义

聚类的基本要素:

  • 性能度量:通过何种性能度量来评估聚类效果的好坏
  • 距离计算:定义数据之间的相似度
  • 类别划分策略(聚类算法):通过何种类别划分方式使得类别划分结果达到有效性函数

注: 聚类的“好坏”不存在绝对标准

特征选择

特征选择:从给定的特征集合中选择出相关特征子集的过程

特征选择是一个数据预处理过程

特征选择的原因

  • 减轻维度灾难,在少量属性上构建模型

  • 降低学习难度,留下关键信息

特征选择的一般方法

  1. 产生初始候选子集
  2. 评价候选子集的好坏
  3. 基于评价结果产生下一个候选子集
  4. 回到步骤2

上述特征选择的关键环节是子集搜索子集评价

子集搜索

  • 前向搜索:逐渐增加相关特征
  • 后向搜索:从完整的特征集合开始,逐渐减少特征
  • 双向搜索:每一轮逐渐增加相关特征,同时减少无关特征

KNN流程

KNN即k近邻学习,是一种常用的监督学习方法

  1. 确定训练样本,以及某种距离度量
    • 距离度量方式:欧式距离、曼哈顿距离
  2. 对于某个给定的测试样本,找到训练集中距离最近的k个样本
  3. 基于k个“邻居”的信息来进行预测

通常,分类问题使用“投票法”获得预测结果,对于回归问题使用“平均法”获得预测结果。还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。

  • 投票法:选择这k个样本中出现最多的类别标记作为预测结果。

  • 平均法:将这k个样本的实值输出标记的平均值作为预测结果。

三、

监督学习和无监督学习

区别在于数据是否有标签

  • 监督学习有标签
  • 无监督学习无标签

四、

L2范数

考虑最简单的线性回归模型,以平方误差为损失函数,并引入L₂范数正则化项防止过拟合,则有,岭回归

image-20230701013853138

image-20230701014122827

效果:参数小的模型更简单,抗扰动能力强

L1范数

L₂范数替换为L₁范数正则化,则有LASSO

image-20230701014032977

image-20230701014128504

效果:易获得稀疏解,是一种嵌入式特征选择方法