《人工智能基础课》学习笔记 Day3

54 阅读5分钟

07 机器学习 | 数山有路,学海无涯:机器学习概论

机器学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科。

机器学习要做的就是根据已有的训练数据推导出描述所有数据的模型,并根据得出的模型实现对未知的测试数据的最优预测。在机器学习中,数据并非通常意义上的数量值,而是对于对象某些性质的描述。被描述的性质叫作属性,属性的取值称为属性值,不同的属性值有序排列得到的向量就是数据,也叫实例。

根据线性代数的知识,数据的不同属性之间可以视为相互独立,因而每个属性都代表了一个不同的维度,这些维度共同张成了特征空间。每一组属性值的集合都是这个空间中的一个点,因而每个实例都可以视为特征空间中的一个向量,即特征向量。

需要注意的是这里的特征向量不是和特征值对应的那个概念,而是指特征空间中的向量。根据特征向量对输入数据进行分类就能够得到输出。

而在实际的机器学习任务中,输出的形式可能更加复杂。根据输入输出类型的不同,预测问题可以分为以下三类。分类问题:输出变量为有限个离散变量,当个数为 2 时即为最简单的二分类问题;回归问题:输入变量和输出变量均为连续变量;标注问题:输入变量和输出变量均为变量序列。在机器学习中,误差被定义为学习器的实际预测输出与样本真实输出之间的差异。

在分类问题中,常用的误差函数是错误率,即分类错误的样本占全部样本的比例。误差可以进一步分为训练误差和测试误差两类。训练误差指的是学习器在训练数据集上的误差,也称经验误差;测试误差指的是学习器在新样本上的误差,也称泛化误差。

训练误差描述的是输入属性与输出分类之间的相关性。测试误差则反映了学习器对未知的测试数据集的预测能力.

过拟合出现的原因通常是学习时模型包含的参数过多,从而导致训练误差较低但测试误差较高。

测试误差与模型复杂度之间呈现的是抛物线的关系。

不同模型中平均测试误差最小的模型也就是最优模型。在调参过程中,一个主要的问题就是性能和效率之间的折中。

  • 监督学习:基于已知类别的训练数据进行学习;
  • 无监督学习:基于未知类别的训练数据进行学习;
  • 半监督学习:同时使用已知类别和未知类别的训练数据进行学习。

受学习方式的影响,效果较好的学习算法执行的都是监督学习的任务。

08 机器学习 | 简约而不简单:线性回归 回归分析是确定多种变量间相互依赖的定量关系的方法。线性回归假设输出变量是若干输入变量的线性组合,并根据这一关系求解线性组合中的最优系数。在众多回归分析的方法里,线性回归模型最易于拟合,其估计结果的统计特性也更容易确定,因而得到广泛应用。而在机器学习中,回归问题隐含了输入变量和输出变量均可连续取值的前提,因而利用线性回归模型可以对任意输入给出对输出的估计。

image.png

当实例只有一个属性时,输入和输出之间的关系就是二维平面上的一条直线;当实例的属性数目较多时,线性回归得到的就是 n+1 维空间上的一个超平面,对应一个维度等于 n 的线性子空间。

在单变量线性回归任务中,最小二乘法的作用就是找到一条直线,使所有样本到直线的欧式距离之和最小。

image.png

对于单变量线性回归而言,在误差函数服从正态分布的情况下,从几何意义出发的最小二乘法与从概率意义出发的最大似然估计是等价的。

在单变量线性回归中,其回归方程可以写成 y=w1x+w0。根据最优化理论,将这一表达式代入均方误差的表达式中,并分别对 w1和 w0求偏导数,令两个偏导数均等于 0 的取值就是线性回归的最优解,其解析式可以写成

image.png

多元线性回归中的参数 w 也可以用最小二乘法进行估计,其最优解同样用偏导数确定,但参与运算的元素从向量变成了矩阵。在理想的情况下,多元线性回归的最优参数为

image.png

要解决过拟合问题,常见的做法是正则化,即添加额外的惩罚项。在线性回归中,正则化的方式根据其使用惩罚项的不同可以分为两种,分别是“岭回归”和“LASSO 回归”。

岭回归实现正则化的方式是在原始均方误差项的基础上添加一个待求解参数的二范数项,即最小化的对象变为 ∣∣yk​−wTxk​∣∣2+∣∣Γw∣∣2,其中的 Γ 被称为季霍诺夫矩阵,通常可以简化为一个常数。

LASSO 回归选择了待求解参数的一范数项作为惩罚项,即最小化的对象变为 ∣∣yk​−wTxk​∣∣2+λ∣∣w∣∣1​,其中的 λ 是一个常数。

但无论岭回归还是 LASSO 回归,其作用都是通过惩罚项的引入抑制过拟合现象,以训练误差的上升为代价,换取测试误差的下降。