1. L2(岭回归)
1.1 问题

②当有很多个特征值时,训练模型的时候往往会造成过拟合的情况,如右边的坐标所示;
而我们想要达到的目的往往是中间的坐标,适当的特征和数据用来训练;
1.2 公式
以图中的公式为例,往往我们得到的模型是: 为了能够得到中间坐标的图形,肯定是希望
和
越小越好,因为这两项越小就越接近于
,就可以得到中间的图形了。
对应的损失函数也加上这个惩罚项(为了惩罚):假设
公式通用化得:
相当于在原始损失函数中加上了一个惩罚项(项)
这就是防止过拟合的一个方法,通常叫做正则化,也叫作岭回归。
1.3 对应图形
简化L2正则化的方程:
表示原始的损失函数,咱们假设正则化项为:
我们已知圆形的方程:
其中为圆心坐标,
为半径。
那么经过坐标原点的单位元可以写成:
正和正则化项一样,同时,机器学习的任务就是要通过一些方法(比如梯度下降)求出损失函数的最小值。
此时我们的任务变成在约束下求出
取最小值的解。
求解的过程可以画出等值线。同时
正则化的函数
也可以在
的二维平面上画出来。如下图:

表示为图中的黑色圆形,随着梯度下降法的不断逼近,与圆第一次产生交点,而这个交点很难出现在坐标轴上。
这就说明了正则化不容易得到稀疏矩阵,同时为了求出损失函数的最小值,使得
*和
无限接近于
,达到防止过拟合的问题。
1.4 使用场景
只要数据线性相关,用LinearRegression拟合的不是很好,需要正则化,可以考虑使用岭回归()。如果输入特征的维度很高,而且是稀疏线性关系的话, 岭回归就不太合适,考虑使用Lasso回归。
2. L1(lasso回归)
2.1 公式
正则化与
正则化的区别在于惩罚项的不同:
正则化表现的是
的绝对值,变化为上面提到的
和
可以表示为:
2.2 对应图形
求解的过程可以画出等值线。同时
正则化的函数也可以在
的二维平面上画出来。如下图:

惩罚项表示为图中的黑色棱形,随着梯度下降法的不断逼近,与棱形第一次产生交点,而这个交点很容易出现在坐标轴上。这就说明了正则化容易得到稀疏矩阵。
2.3 使用场景
正则化(Lasso回归)可以使得一些特征的系数变小,甚至还使一些绝对值较小的系数直接变为0,从而增强模型的泛化能力。
对于高纬的特征数据,尤其是线性关系是稀疏的,就采用正则化(Lasso回归),或者是要在一堆特征里面找出主要的特征,那么
正则化(Lasso回归)更是首选了。