深度学习——正则化

132 阅读1分钟

正则化的核心作用:防止模型过拟合,提升泛化能力,方法是通过在损失函数中增加惩罚项,限制模型参数的大小或复杂度。

L1与L2正则化

L1正则(Lasso) 加参数绝对值之和

L2正则(Ridge) 加参数平方和

Dropout正则化

随机选择某些节点,并且删除前向和后向连接。

提前停止

将一部分训练集作为验证集(validation set)。 当验证集的性能 越来越差时或者性能不再提升,则立即停止对该模型的训练。

批标准化

批标准化(Batch Normalization, BN) 的作用是通过对每一批(batch)数据规范化(均值0、方差1),加速神经网络训练并提升模型稳定性,减少对参数初始化的依赖。

面试扩展问题

  • 为什么L1能产生稀疏解?  → 答案:L1的绝对值惩罚在零点不可导,容易将不重要参数压缩到0。
  • Dropout为什么能正则化?  → 答案:通过随机丢弃神经元,防止模型依赖单一特征,类似集成学习。