开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第5天，点击查看活动详情

本教材中统计学习与机器学习为一个含义

考试要求：
主要涉及概念理解。
统计（机器）学习三要素，过拟合与欠拟合，训练误差与测试误差，训练集与验证集（交叉验证）。

统计学习的对象和目的

对象：数据（data）暨计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它们的组合。目的：用于对数据（特别是未知数据）进行预测和分析。

统计学习的方法：

监督学习

监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系，预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。

Pasted image 20221129153719.png

无监督学习

无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。

Pasted image 20221129153740.png

半监督学习

少量标注数据，大量未标注数据利用未标注数据的信息，辅助标注数据，进行监督学习

统计学习三要素

方法=模型+策略+算法

模型

统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。模型的假设空间(hypothesisspace)包含所有可能的条件概率分布或决策函数。例如，假设决策函数是输入变量的线性函数，那么模型的假设空间就是所有这些线性函数构成的函数集合。

策略

使得经验风险最小化与结构风险最小化

损失函数：损失函数、风险函数、0-1损失函数、平方损失函数、绝对损失函数、对数损失函数

算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后需要考虑用什么样的计算方法求解最优模型。

训练误差和测试误差

训练误差，模型关于训练数据集的平均损失
测试误差，模型关于测试数据集的平均损失

当损失函数为0-1损失时，测试误差就是测试数据集上的误差率，准确率=1-误差率

过拟合和欠拟合

Pasted image 20221129155606.png 过拟合：如果一味追求提高对训练数据的预测能力，所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合(over-fitting) 。过拟合是指学习时选择的模型所包含的参数过多，以至出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象。

欠拟合：欠拟合是指模型在训练集、验证集和测试集上均表现不佳的情况

正则化和交叉验证

正则化和交叉验证为两种常用的模型选择方法

正则化：

正则化是结构风险最小化策略的实现，是在经验风险上加一一个正则化项(regularizer) 或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂，正则化值就越大。比如，正则化项可以是模型参数向量的范数。

交叉验证：

如果给定的样本数据充足，进行模型选择的一种简单方法是随机地将数据集切分成三部分，分别为训练集(training set)、验证集(validation set)和测试集(test set )。

训练集用来训练模型，验证集用于模型的选择，而测试集用于最终对学习方法的评估。在学习到的不同复杂度的模型中，选择对验证集有最小预测误差的模型。由于验证集有足够多的数据，用它对模型进行选择也是有效的。

泛化能力

学习方法的泛化能力(generalization ability) 是指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上重要的性质。现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力。但这种评价是依赖于测试数据集的。因为测试数据集是有限的，很有可能由此得到的评价结果是不可靠的。

统计学习及监督学习概论