手撕深度学习L2正则化1. 深度学习L2正则化的原理：减少模型的复杂度，防止过拟合，通过在损失函数中添加一个正则化项来

1. 深度学习L2正则化的原理：

减少模型的复杂度，防止过拟合，通过在损失函数中添加一个正则化项来实现。

L2 正则化项的数学表达式通常是权重系数的平方和： L2 正则化项 = $\frac{1}{2} \sum w_i^2$

这个正则化项惩罚了权重的大值，因为权重的平方随着权重值的增大而增大。
之所以使用平方和而不是绝对值和（这是 L1 正则化），是因为平方项对大的权重值有更强的惩罚效果，而且它是平滑的，这对于优化算法（如梯度下降）来说是有利的。
常数 \frac{1}{2} 是为了数学上的方便，在计算梯度时会简化公式，但不影响正则化项的本质。

在训练过程中，L2 正则化项会被加到模型的原始损失函数上。这样，模型在训练时不仅要最小化原始的损失（如分类误差），还要最小化权重的大小，从而避免过大的权重值，这有助于防止模型对训练数据的过拟合。

2. 代码理解

def train(lambd):
    w, b = init_params()
    net , loss = lambda X : d2l.linreg(X, w, b), d2l.squared_loss
    num_epochs , lr = 100, 0.03 
    animator = d2l.Animator(xlabel='epochs', ylabel='loss', yscale='log',
                            xlim=[5, num_epochs], legend=['train', 'test'])
    for epoch in range(num_epochs):
        for X ,y in train_iter:
            # 增加了L2范数惩罚项
            # 广播机制使l2_penalty(w)成为一个长度为batch_size的向量
            l = loss(net(X),y) + lambd * l2_penalty(w)
            l.sum().backward()
            d2l.sgd([w,b],lr,batch_size)
        if (epoch + 1) % 5 == 0:
            animator.add(epoch + 1, (d2l.evaluate_loss(net, train_iter, loss),
                                     d2l.evaluate_loss(net, test_iter, loss)))
    print('w的L2范数为：',torch.norm(w).item())

在第11行中加入了正则化处理

当我第一眼看到这代码时产生了疑惑，为什么要加上lambd * l2_penalty(w)，这不会让损失越来越高吗？想了一个小时，翻了深度学习的原理才终于理解。

它是一个for循环，虽然刚开始的损失会很高，但是经过多次训练和更新参数，损失会沿着梯度高的地方降下来，当 lambd 值较大时，正则化项对总损失的贡献增大，模型在减少预测误差的同时，也会努力压缩权重的大小。

3.代码实现

train(lambd = 0)

train(lambd = 3)

可以看到，当lambd值设的越大时，惩罚的作用越好，防止模型过拟合的效果越好