相关概念
- 错误率:分类错误的样本占样本总数的比例
- 精度:1-错误率
- 误差:学习器的实际预测输出与样本的真实输出之间的差异
- 训练误差(经验误差):学习器在训练集上的误差
- 泛化误差:学习器在新样本上的误差
- 过拟合:学习器可能已经把训练样本自身的一些特点当做了所有潜在
- 样本都具有的一般性质,导致泛化性能下降
- 欠拟合:学习器学习能力低下而对训练样本的一般性质尚未学好
- 模型选择:选择学习算法和参数配置
评估方法
- 留出法:将数据集划分为两个互斥的集合,其中一个集合作为训练集,另一个作为测试集
分层采样:保留类别比例的采样方式
- 交叉验证法:先将数据集划分为k个相似的互斥子集,然后每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集,进行k次训练和测试
k常用的取值为10、5、20
留一法:每个子集只包含一个样本
- 自助法:以自助采样法为基础进行采样
自助法在数据集较小、难以有效划分训练/测试集的时很有用,同时对集成学习等方法具有很大的好处
然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差
性能度量
- 回归任务中最常用的性能度量是“均方误差”
- 错误率和精度是最常用的两种性能度量
- 查准率P和查全率R,平衡点(查准率=查全率时的取值)
- ROC(受试者工作特征曲线):纵轴为“真正例率”,横轴是“假正例率”
- AUC(ROC曲线下的面积)
- 代价敏感错误率,代价曲线图:横轴是正例概率代价,纵轴是归一化代价
比较检验
- 假设检验:可根据测试错误率推出泛化错误率 二项检验,t检验
- 交叉验证t检验 5x2交叉验证
- McNemar检验
- Friedman检验与Nemenyi后续检验
偏差与方差
- 偏差:度量了学习算法的期望预测与真实结果的偏离程度
- 方差:度量了同样大小的训练集的变动所导致的学习性能的变化
- 噪声:表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界
- 泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的
- 泛化误差可分解为偏差、方差与噪声之和
- 偏差-方差窘境:偏差与方差是有冲突的
假定我们能控制学习算法的训练程度则在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足 以使学习器产生显著变化,此时偏差主导了泛化错误率;随着训练程度的加深,学习器的拟合能力逐渐增强,训练数据发生的扰动渐渐能被学习器学到,方差逐渐主导了泛化错误率;在训练程度充足后,学习器的拟合能力已非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,若训练数据自身的、非全局的特性被学习器学到了,则将发生过拟合