手撕深度学习L2正则化

473 阅读2分钟

1. 深度学习L2正则化的原理:

减少模型的复杂度,防止过拟合,通过在损失函数中添加一个正则化项来实现。

L2 正则化项的数学表达式通常是权重系数的平方和: L2 正则化项 = 12wi2\frac{1}{2} \sum w_i^2

  • 这个正则化项惩罚了权重的大值,因为权重的平方随着权重值的增大而增大。
  • 之所以使用平方和而不是绝对值和(这是 L1 正则化),是因为平方项对大的权重值有更强的惩罚效果,而且它是平滑的,这对于优化算法(如梯度下降)来说是有利的。
  • 常数 \frac{1}{2} 是为了数学上的方便,在计算梯度时会简化公式,但不影响正则化项的本质。

在训练过程中,L2 正则化项会被加到模型的原始损失函数上。这样,模型在训练时不仅要最小化原始的损失(如分类误差),还要最小化权重的大小,从而避免过大的权重值,这有助于防止模型对训练数据的过拟合。

2. 代码理解

def train(lambd):
    w, b = init_params()
    net , loss = lambda X : d2l.linreg(X, w, b), d2l.squared_loss
    num_epochs , lr = 100, 0.03 
    animator = d2l.Animator(xlabel='epochs', ylabel='loss', yscale='log',
                            xlim=[5, num_epochs], legend=['train', 'test'])
    for epoch in range(num_epochs):
        for X ,y in train_iter:
            # 增加了L2范数惩罚项
            # 广播机制使l2_penalty(w)成为一个长度为batch_size的向量
            l = loss(net(X),y) + lambd * l2_penalty(w)
            l.sum().backward()
            d2l.sgd([w,b],lr,batch_size)
        if (epoch + 1) % 5 == 0:
            animator.add(epoch + 1, (d2l.evaluate_loss(net, train_iter, loss),
                                     d2l.evaluate_loss(net, test_iter, loss)))
    print('w的L2范数为:',torch.norm(w).item())

在第11行中加入了正则化处理

当我第一眼看到这代码时产生了疑惑,为什么要加上lambd * l2_penalty(w),这不会让损失越来越高吗?想了一个小时,翻了深度学习的原理才终于理解。

它是一个for循环,虽然刚开始的损失会很高,但是经过多次训练和更新参数,损失会沿着梯度高的地方降下来,当 lambd 值较大时,正则化项对总损失的贡献增大,模型在减少预测误差的同时,也会努力压缩权重的大小。

3.代码实现

train(lambd = 0)

image.png

train(lambd = 3)

image.png

可以看到,当lambd值设的越大时,惩罚的作用越好,防止模型过拟合的效果越好