损失函数与正则化介绍损失函数与风险函数，极其正则化方法，对比L1和L2正则化两种方法的特点、使用场景，优化方法和注意事

损失函数(Loss Function)

损失函数：它用于量化单样本预测值与真实值之间的差异，记为 $L(y_i, f(x_i, w))$ ， $y_i$ 是第 i 个样本的真实值， $f(x_i, w)$ 是模型对第 i 个样本的预测值，w 表示模型的参数。

均方损失函数=(样本真实值-样本预测值)^2 \\ 绝对损失函数=|样本真实值-样本预测值|

$R_{emp}(w) = \frac{1}{N} ∑ L(y_i, f(x_i, w))$

其中，N 是训练样本的数量，L 是损失函数。

作用：评价模型，指导训练
- 成本函数用于评估预测值和真实值的差距，成本函数越小，模型越精准
局限性：仅仅最小化经验风险可能会导致模型过拟合（Overfitting）。为了提高模型的泛化能力（即模型在新数据上的表现），我们通常会在经验风险的基础上引入正则化项，得到结构风险（Structural Risk），并通过最小化结构风险来训练模型。

用于连续值回归训练和预测

算法：计算预测值与真实值差值的平方的平均值。
公式： $MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2$ ， $y_i$ 为真实值，\hat{y}_i$为预测值，n为样本数）
特点：对异常值敏感（平方会放大偏差）
场景：适合数据无明显异常、追求预测精度的场景（如房价预测、销售额预测,SBERT中预测句子对的相似性分数）。

在统计学习理论中，经验风险和结构风险是两个核心概念，用于衡量模型在训练过程中的表现，并指导模型的优化方向。表现，并指导模型的优化方向。

结构风险(正则化成本函数)=经验风险(成本函数)+λ×正则化项

或

R_{srm}(f) = \frac{1}{N} ∑ L(y_i, f(x_i)) + λ•J(f)

正则化项J(f) 表示模型的复杂度，它是定义在假设空间上的泛函。模型越复杂，J(f) 的值就越大；反之，模型越简单，J(f) 的值就越小。复杂度项表示了对复杂模型的惩罚。

λ是正则化系数(大于0的超参数)，用于权衡经验风险和模型复杂度，λ越大，正则化项在损失函数中占比越大，能控制原损失函数取值尽可能偏大，避免过拟合。

下图以线性回归均方成本函数为例，，在图中，均方成本函数的等值线为椭圆，红色箭头为梯度下降方向；成本函数等值线与L1或L2等值线交点处即为参数取值，黑色箭头表示λ越大，参数取值越小，原成本函数越不容易过拟合。

L1与L2正则化

L1与L2选择方法

实验对比可以分别在模型中应用 L1 和 L2 正则化，固定相同的正则项大小，然后在验证集上评估模型的性能，如准确率、均方误差等。选择在验证集上性能更优的正则化方式。例如在一个文本分类任务中，分别使用 L1 和 L2 正则化进行训练，对比验证集上的分类准确率，选择准确率更高的那种。
结合先验知识根据问题的领域知识和经验来选择。如果已知某些特征之间存在较强的相关性，L2 正则化可以更好地处理这种情况；如果希望突出某些重要特征，忽略一些不重要的特征，L1 正则化可能更合适。例如在金融风险评估中，根据以往的经验知道某些指标对风险评估的影响较大，使用 L1 正则化可能有助于筛选出这些关键指标。

详细介绍可以参见Forrest老师的讲解L1正则化为什么具有稀疏性

同时使用L1正则化和L2正则化

λ×L1范数＋λ×L2范数

特点：

有时会看到损失函数除以n或2n，除以2n后续导数计算更方便些。

需要，即使固定正则项大小，仍需要调整不同参数权重，甚至稀疏某些参数

即使固定了正则项大小，也需要进行 L1 和 L2 正则项的决策：