正则化1

0 阅读2分钟

1.过拟合的问题

如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集(代价函数可能几乎为0),但是可能会不能推广到新的数据。

Pasted image 20260228140844.png 现有一个回归问题,第一个是线性模型,欠拟合,不能很好地适应我们的训练集;第三个模型是一个四次方模型,过于强调拟合原始数据,而丢失了算法的本质:预测新数据--如果给出一个新的值使之预测,将表现的很差,这就是过拟合。 ==过拟合:虽然模型能非常好地适应训练集,但再新输入变量进行预测试效果不好。== 对于分类问题,以多项式理解,x的次数越高,拟合的越好,但相应的预测的能力就可能变差。

2.如何处理过拟合问题

核心思想:降低模型复杂度,增强泛化能力
1.特征选择-精简输入,去除噪声
  • 目的:通过减少无关或冗余特征,降低模型维度,避免因“学得太细”而记住训练数据的噪声。

  • 手工筛选:根据领域知识或特征重要性排序(如相关系数、信息增益),手动剔除贡献低的特征。

  • 自动降维/选择算法:

    • PCA(主成分分析):将高维特征投影到低维主成分空间,保留大部分方差,同时去除线性相关性。

    • 其他方法:Lasso回归(自带特征选择)、递归特征消除(RFE)、基于树模型的特征重要性等。

  • ✅使用场景:特征纬度高,存在明显冗余或噪声时优先考虑。

2.正则化-约束参数,平滑模型
  • 目的:不丢弃任何特征,而是通过数学手段"惩罚"过大的权重,使模型更平滑、更泛化。
  • L1正则化(Lasso):在损失函数中加入权重绝对值之和,倾向于产生稀疏解(部分权重变为0),兼具特征选择效果。
  • L2正则化(Ridge):加入权重平方和,使所有权重趋于小值,但不会为零,适合保留所有特征。
  • 弹性网络(Elastic Net):L1+L2混合,平衡两者优点。

📌 关键词:**保留所有特征 + 减少参数大小(magnitude)**​ —— 正则化正是通过“压缩权重”实现这一点。

✅ 适用场景:特征本身都有意义、不想轻易舍弃,但担心权重过大导致过拟合。