开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第5天,点击查看活动详情
本教材中统计学习与机器学习为一个含义
考试要求:
主要涉及概念理解。
统计(机器)学习三要素,过拟合与欠拟合,训练误差与测试误差,训练集与验证集(交叉验证)。
统计学习的对象和目的
对象:数据(data)暨计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它们的组合。 目的:用于对数据(特别是未知数据)进行预测和分析。
统计学习的方法:
监督学习
监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。
无监督学习
无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。
半监督学习
少量标注数据,大量未标注数据 利用未标注数据的信息,辅助标注数据,进行监督学习
统计学习三要素
方法=模型+策略+算法
模型
统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间(hypothesisspace)包含所有可能的条件概率分布或决策函数。例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合。
策略
使得经验风险最小化与结构风险最小化
损失函数:损失函数、风险函数、0-1损失函数、平方损失函数、绝对损失函数、对数损失函数
算法
算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。
训练误差和测试误差
- 训练误差,模型关于训练数据集的平均损失
- 测试误差,模型关于测试数据集的平均损失
当损失函数为0-1损失时,测试误差就是测试数据集上的误差率,准确率=1-误差率
过拟合和欠拟合
过拟合:如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合(over-fitting) 。过拟合是指学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。
欠拟合:欠拟合是指模型在训练集、验证集和测试集上均表现不佳的情况
正则化和交叉验证
正则化和交叉验证为两种常用的模型选择方法
正则化:
正则化是结构风险最小化策略的实现,是在经验风险上加一一个正则化项(regularizer) 或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。
交叉验证:
如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切分成三部分,分别为训练集(training set)、验证集(validation set)和测试集(test set )。
训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估。在学习到的不同复杂度的模型中,选择对验证集有最小预测误差的模型。由于验证集有足够多的数据,用它对模型进行选择也是有效的。
泛化能力
学习方法的泛化能力(generalization ability) 是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力。但这种评价是依赖于测试数据集的。因为测试数据集是有限的,很有可能由此得到的评价结果是不可靠的。