目录
阅读时间: 4 分钟
在这篇博客中,我们将了解拉索回归和山脊回归的技术。我们将对这些方法进行详细的比较和分析。
介绍一下线性模型
- 线性回归是一种线性模型,是最基本和最常用的预测算法。
- 这与它简单而又有效的架构是分不开的。线性模型假定输入变量𝑥和输出变量y之间存在线性关系。
- 在这个公式1.1中,我们展示了一个有n个特征的线性模型。
- w是分配给每个特征的系数(或权重)--它们对结果y的重要性的一个指标。
- 例如,我们假设温度是冰淇淋销售的一个更大的驱动因素,而不是它是否是公共假日。
- 在我们的线性模型中,分配给温度的权重将大于公共假期的变量。
线性模型的目标是通过公式1.2中的成本函数优化权重(b)。成本函数计算预测值和实际值之间的误差,以单个实值数字表示。成本函数是数据集中n个样本的平均误差,下面表示为。
在上面的方程中,yi是实际值,是我们的线性方程的预测值,其中M是行数,P是特征的数量。
正则化
当涉及到训练模型时,有两个主要问题可能会遇到:过拟合和欠拟合。
-
当模型在训练集上表现良好,但在未见过的(测试)数据上表现不佳时,就会发生过度拟合。
-
当模型在训练集和测试集上的表现都不好时,就会发生欠拟合。
-
特别是,正则化实现了避免数据的过度拟合,尤其是当训练集和测试集的表现之间存在较大差异时。
-
通过正则化,训练中的特征数量是恒定的,但是方程1.1中的系数(w)的大小却减少了。
-
考虑下面的系数图像来预测房价。虽然有相当多的预测因素,但RM和RAD的系数最大。
-
这两个特征对房价的推动作用更加明显,导致了过度拟合。
在线性模型中,有不同的方法来减少模型的复杂性和防止过拟合。这包括山脊和拉索回归模型。
拉索回归简介
- 拉索回归是一种用于特征选择的正则化技术,使用收缩法,也被称为惩罚回归法。
- Lasso是Least Absolute Shrinkage和Selection Operator的缩写,它同时用于正则化和模型选择。
- 如果一个模型使用L1正则化技术,那么就被称为拉索回归。
拉索回归的正则化
- 这种收缩技术从方程1.1中确定了线性模型中的系数。
- 该方程通过引入称为αα(或有时称为λ)值的惩罚因子,向中心点缩减为平均值。
- 阿尔法(α)是表示缩减量(或约束)的惩罚项。
- 当α设置为零时,我们会发现这相当于方程1.2中的线性回归模型,较大的数值会对优化函数进行惩罚。
- 因此,套索回归缩小了系数,有助于降低模型的复杂性和多重共线性。
- 阿尔法(α)是零到无穷大之间的任何实数;数值越大,惩罚越积极。
拉索回归的模型选择
- 由于系数向平均值为零的方向收缩,数据集中不太重要的特征在惩罚时就会被消除。
- 根据提供的α值对这些系数进行缩减,导致了某种形式的自动特征选择。
里奇回归
- 与套索回归类似,岭回归通过引入惩罚因子对系数进行了类似的约束。
- 然而,套索回归取的是系数的大小,而山脊回归取的是平方。
- 山脊回归也被称为L2正则化。
为什么拉索可以用于模型选择,而山脊回归不能?
- 考虑到套索(左)和山脊(右)模型的几何形状,椭圆的轮廓(红圈)是各自的成本函数。
- 放宽惩罚因子引入的约束会导致约束区域的增加(钻石,圆圈)。
- 不断地这样做,我们会碰到椭圆的中心,在这里,套索和山脊模型的结果都与线性回归模型相似。
- 然而,这两种方法都是通过寻找椭圆轮廓线击中约束区域的第一个点来确定系数的。
- 由于套索回归在约束区域的图中采取菱形,每次椭圆区域与这些角相交时,至少有一个系数变为零。
- 这在山脊回归模型中是不可能的,因为它形成了一个圆形,因此数值可以缩减到接近零,但永远不会等于零。
结论
我们已经看到了山脊和套索回归模型的实现以及这些技术背后的理论和数学概念。这篇博客的一些主要收获包括。
- 岭回归和套索回归的成本函数是相似的。然而,山脊回归取的是系数的平方,而套索取的是幅度。
- 拉索回归可用于自动特征选择,因为其约束区域的几何形状允许系数值惰性为零。
- 在山脊或套索模型中,α值为零,其结果与回归模型相似。
- α值越大,惩罚就越积极。