1.过拟合的问题
如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集(代价函数可能几乎为0),但是可能会不能推广到新的数据。
现有一个回归问题,第一个是线性模型,欠拟合,不能很好地适应我们的训练集;第三个模型是一个四次方模型,过于强调拟合原始数据,而丢失了算法的本质:预测新数据--如果给出一个新的值使之预测,将表现的很差,这就是过拟合。
==过拟合:虽然模型能非常好地适应训练集,但再新输入变量进行预测试效果不好。==
对于分类问题,以多项式理解,x的次数越高,拟合的越好,但相应的预测的能力就可能变差。
2.如何处理过拟合问题
核心思想:降低模型复杂度,增强泛化能力
1.特征选择-精简输入,去除噪声
-
目的:通过减少无关或冗余特征,降低模型维度,避免因“学得太细”而记住训练数据的噪声。
-
手工筛选:根据领域知识或特征重要性排序(如相关系数、信息增益),手动剔除贡献低的特征。
-
自动降维/选择算法:
-
PCA(主成分分析):将高维特征投影到低维主成分空间,保留大部分方差,同时去除线性相关性。
-
其他方法:Lasso回归(自带特征选择)、递归特征消除(RFE)、基于树模型的特征重要性等。
-
-
✅使用场景:特征纬度高,存在明显冗余或噪声时优先考虑。
2.正则化-约束参数,平滑模型
- 目的:不丢弃任何特征,而是通过数学手段"惩罚"过大的权重,使模型更平滑、更泛化。
- L1正则化(Lasso):在损失函数中加入权重绝对值之和,倾向于产生稀疏解(部分权重变为0),兼具特征选择效果。
- L2正则化(Ridge):加入权重平方和,使所有权重趋于小值,但不会为零,适合保留所有特征。
- 弹性网络(Elastic Net):L1+L2混合,平衡两者优点。
📌 关键词:**保留所有特征 + 减少参数大小(magnitude)** —— 正则化正是通过“压缩权重”实现这一点。
✅ 适用场景:特征本身都有意义、不想轻易舍弃,但担心权重过大导致过拟合。