这是我参与11月更文挑战的第4天,活动详情查看:2021最后一次更文挑战
第一章 绪论
1.1 引言
学习算法 - 经验改善系统自身性能
1.2 基本术语
- 数据集 - D
- 训练数据 - 训练过程使用的数据
- 学得模型 某规律 - 假设
- 潜在规律本身 - 真相
- 有监督学习:(二/多)分类 - 离散值,回归 - 连续值
- 无监督学习:聚类
- 泛化 - 模型适用于新样本
1.3 假设空间
- 归纳 - 特殊到一般 - 具体事实到一般规律
- 演绎 - 一般到特殊 - 基础原理推演出具体状况
1.4 归纳偏好
归纳偏好 - 对某种类型的假设偏好
1.5 发展历程
跳棋 - 监督学习、无监督学习 - 决策树 - 神经网络 - 深度学习
1.6 应用现状
搜索引擎、自动驾驶
第二章 模型评估
2.1 经验误差与过拟合
- 经验误差 - 实际预测输出 VS 真实输出
- 过拟合 - 学习器训练结果太好
2.2 评估方法
- 评估方法 - 测试集测试模型能力
- 使用一个数据集
- 留出法:数据集、训练集划分成两个互斥的集合,尽可能保持数据分布一致
- 交叉验证法:数据集D 划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,剩下那个作为测试集 K组 - 可进行K次训练和测试
- 自助法:每次随机从D中挑选一个样本,拷贝后放回,执行m次可得m个样本得数据集
- 调参与最终模型:每个参数选择一个范围和变化步长,对参数进行调节
2.3 性能度量
反应了任务需求。回归任务 - 均方误差进行度量
分类任务:
- 错误率与精度 - 二分类/多酚类
- 查准率[precision] - 挑出来得有多少是好的、查全率[recall] - 所有好的中,多少被挑出来了
3. ROC与AUC
ROC - 受试者工作特征
AUC - ROC的面积 - 衡量二分类问题
2.4 比较检验
- 假设检验
- 交叉验证t检验
- McNemar检验
- Friedman检验与Nemenyi后续检验
2.5 偏差与方差
偏差:期望输出与真实标记的差别
方差:同样大小的训练集的变动所导致的学习性能的变化