正则化的核心作用:防止模型过拟合,提升泛化能力,方法是通过在损失函数中增加惩罚项,限制模型参数的大小或复杂度。
L1与L2正则化
L1正则(Lasso) 加参数绝对值之和
L2正则(Ridge) 加参数平方和
Dropout正则化
随机选择某些节点,并且删除前向和后向连接。
提前停止
将一部分训练集作为验证集(validation set)。 当验证集的性能 越来越差时或者性能不再提升,则立即停止对该模型的训练。
批标准化
批标准化(Batch Normalization, BN) 的作用是通过对每一批(batch)数据规范化(均值0、方差1),加速神经网络训练并提升模型稳定性,减少对参数初始化的依赖。
面试扩展问题
- 为什么L1能产生稀疏解? → 答案:L1的绝对值惩罚在零点不可导,容易将不重要参数压缩到0。
- Dropout为什么能正则化? → 答案:通过随机丢弃神经元,防止模型依赖单一特征,类似集成学习。