1. 深度学习L2正则化的原理:
减少模型的复杂度,防止过拟合,通过在损失函数中添加一个正则化项来实现。
L2 正则化项的数学表达式通常是权重系数的平方和: L2 正则化项 =
- 这个正则化项惩罚了权重的大值,因为权重的平方随着权重值的增大而增大。
- 之所以使用平方和而不是绝对值和(这是 L1 正则化),是因为平方项对大的权重值有更强的惩罚效果,而且它是平滑的,这对于优化算法(如梯度下降)来说是有利的。
- 常数 \frac{1}{2} 是为了数学上的方便,在计算梯度时会简化公式,但不影响正则化项的本质。
在训练过程中,L2 正则化项会被加到模型的原始损失函数上。这样,模型在训练时不仅要最小化原始的损失(如分类误差),还要最小化权重的大小,从而避免过大的权重值,这有助于防止模型对训练数据的过拟合。
2. 代码理解
def train(lambd):
w, b = init_params()
net , loss = lambda X : d2l.linreg(X, w, b), d2l.squared_loss
num_epochs , lr = 100, 0.03
animator = d2l.Animator(xlabel='epochs', ylabel='loss', yscale='log',
xlim=[5, num_epochs], legend=['train', 'test'])
for epoch in range(num_epochs):
for X ,y in train_iter:
# 增加了L2范数惩罚项
# 广播机制使l2_penalty(w)成为一个长度为batch_size的向量
l = loss(net(X),y) + lambd * l2_penalty(w)
l.sum().backward()
d2l.sgd([w,b],lr,batch_size)
if (epoch + 1) % 5 == 0:
animator.add(epoch + 1, (d2l.evaluate_loss(net, train_iter, loss),
d2l.evaluate_loss(net, test_iter, loss)))
print('w的L2范数为:',torch.norm(w).item())
在第11行中加入了正则化处理
当我第一眼看到这代码时产生了疑惑,为什么要加上lambd * l2_penalty(w),这不会让损失越来越高吗?想了一个小时,翻了深度学习的原理才终于理解。
它是一个for循环,虽然刚开始的损失会很高,但是经过多次训练和更新参数,损失会沿着梯度高的地方降下来,当 lambd 值较大时,正则化项对总损失的贡献增大,模型在减少预测误差的同时,也会努力压缩权重的大小。
3.代码实现
train(lambd = 0)
train(lambd = 3)
可以看到,当lambd值设的越大时,惩罚的作用越好,防止模型过拟合的效果越好