统计学习及监督学习概论

57 阅读4分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第5天,点击查看活动详情

本教材中统计学习与机器学习为一个含义

考试要求:
主要涉及概念理解。
统计(机器)学习三要素,过拟合与欠拟合,训练误差与测试误差,训练集与验证集(交叉验证)。

统计学习的对象和目的

对象:数据(data)暨计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它们的组合。 目的:用于对数据(特别是未知数据)进行预测和分析。

统计学习的方法:

监督学习

监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。

Pasted image 20221129153719.png

无监督学习

无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。

Pasted image 20221129153740.png

半监督学习

少量标注数据,大量未标注数据 利用未标注数据的信息,辅助标注数据,进行监督学习

统计学习三要素

方法=模型+策略+算法

模型

统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间(hypothesisspace)包含所有可能的条件概率分布或决策函数。例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合。

策略

使得经验风险最小化与结构风险最小化

损失函数:损失函数、风险函数、0-1损失函数、平方损失函数、绝对损失函数、对数损失函数

算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。

训练误差和测试误差

  • 训练误差,模型关于训练数据集的平均损失
  • 测试误差,模型关于测试数据集的平均损失

当损失函数为0-1损失时,测试误差就是测试数据集上的误差率,准确率=1-误差率

过拟合和欠拟合

Pasted image 20221129155606.png 过拟合:如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合(over-fitting) 。过拟合是指学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。

欠拟合:欠拟合是指模型在训练集、验证集和测试集上均表现不佳的情况

正则化和交叉验证

正则化和交叉验证为两种常用的模型选择方法

正则化:

正则化是结构风险最小化策略的实现,是在经验风险上加一一个正则化项(regularizer) 或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。

交叉验证:

如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切分成三部分,分别为训练集(training set)、验证集(validation set)和测试集(test set )。

训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估。在学习到的不同复杂度的模型中,选择对验证集有最小预测误差的模型。由于验证集有足够多的数据,用它对模型进行选择也是有效的。

泛化能力

学习方法的泛化能力(generalization ability) 是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力。但这种评价是依赖于测试数据集的。因为测试数据集是有限的,很有可能由此得到的评价结果是不可靠的。