西瓜书 第一章,第二章

182 阅读2分钟

这是我参与11月更文挑战的第4天,活动详情查看:2021最后一次更文挑战

第一章 绪论

1.1 引言

学习算法 - 经验改善系统自身性能

1.2 基本术语

  1. 数据集 - D
  2. 训练数据 - 训练过程使用的数据
  3. 学得模型 某规律 - 假设
  4. 潜在规律本身 - 真相
  5. 有监督学习:(二/多)分类 - 离散值,回归 - 连续值
  6. 无监督学习:聚类
  7. 泛化 - 模型适用于新样本

1.3 假设空间

  1. 归纳 - 特殊到一般 - 具体事实到一般规律
  2. 演绎 - 一般到特殊 - 基础原理推演出具体状况

1.4 归纳偏好

归纳偏好 - 对某种类型的假设偏好

1.5 发展历程

跳棋 - 监督学习、无监督学习 - 决策树 - 神经网络 - 深度学习

1.6 应用现状

搜索引擎、自动驾驶

第二章 模型评估

2.1 经验误差与过拟合

  1. 经验误差 - 实际预测输出 VS 真实输出
  2. 过拟合 - 学习器训练结果太好

2.2 评估方法

  1. 评估方法 - 测试集测试模型能力
  2. 使用一个数据集
  • 留出法:数据集、训练集划分成两个互斥的集合,尽可能保持数据分布一致
  • 交叉验证法:数据集D 划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,剩下那个作为测试集 K组 - 可进行K次训练和测试
  • 自助法:每次随机从D中挑选一个样本,拷贝后放回,执行m次可得m个样本得数据集
  • 调参与最终模型:每个参数选择一个范围和变化步长,对参数进行调节

2.3 性能度量

反应了任务需求。回归任务 - 均方误差进行度量
分类任务:

  1. 错误率与精度 - 二分类/多酚类
  2. 查准率[precision] - 挑出来得有多少是好的、查全率[recall] - 所有好的中,多少被挑出来了

image.png

image.png 3. ROC与AUC
ROC - 受试者工作特征
AUC - ROC的面积 - 衡量二分类问题

2.4 比较检验

  1. 假设检验
  2. 交叉验证t检验
  3. McNemar检验
  4. Friedman检验与Nemenyi后续检验

2.5 偏差与方差

偏差:期望输出与真实标记的差别
方差:同样大小的训练集的变动所导致的学习性能的变化