常见的损失函数汇总

7 阅读2分钟

  损失函数(Loss Function)是机器学习和深度学习中用于衡量模型预测值与真实值之间差异的函数,其值越小表示模型性能越好。不同的任务(如分类、回归、生成等)需要选择不同的损失函数。

一、分类任务损失函数

1. 交叉熵损失(Cross-Entropy Loss)

(1)二分类(Binary Cross-Entropy)

L=1Ni=1N[yilog(pi)+(1yi)log(1pi)]L=-\frac{1}{N}\sum_{i=1}^{N}{\left[ y_ilog(p_i)+(1-y_i)log(1-p_i) \right]}

  其中,yiy_i是真实标签(0或1),pip_i是预测概率。

  应用场景:逻辑回归、二分类神经网络等。

(2)多分类(Categorical Cross-Entropy)

L=1Ni=1Nc=1Cyi,clog(pi,c)L=-\frac{1}{N}\sum_{i=1}^{N}{\sum_{c=1}^{C}{y_{i,c}log(p_{i,c})}}

  其中,yi,cy_{i,c}是one-hot编码的真实标签,pi,cp_{i,c}是预测概率。

  应用场景:多分类任务(如ResNet、Transformer等)。

2. 合页损失(Hinge Loss)

L=max(0,1yif(xi))L=max(0,1-y_i\cdot f(x_i))

  其中,yi{1,1}y_i\in \left\{ -1,1 \right\}f(xi)f(x_i)是模型输出。

  应用场景:支持向量机(SVM)。

3. Focal Loss

L=α(1pi)γlog(pi)L=-\alpha (1-p_i)^{\gamma}log(p_i)

  通过参数γ\gamma降低易分类样本的权重,解决类别不平衡问题。

  应用场景:目标检测(如RetinaNet)。

4. KL散度(Kullback-Leibler Divergence)

L=p(x)logp(x)q(x)L=\sum p(x) log\frac{p(x)}{q(x)}

  衡量两个概率分布的差异。

  应用场景:生成模型(如VAE)、模型蒸馏。

二、回归任务损失函数

1. 均方误差(MSE, L2 Loss)

L=1Ni=1N(yiy^i)2L=\frac{1}{N}\sum_{i=1}^{N}{(y_i-\hat y_i)^{2}}

  对异常值敏感,惩罚大误差。

  应用场景:房价预测、连续值预测。

2. 平均绝对误差(MAE, L1 Loss)

L=1Ni=1Nyiy^iL=\frac{1}{N}\sum_{i=1}^{N}{\left| y_i-\hat y_i \right|}

  对异常值鲁棒,梯度恒定。

  应用场景:鲁棒回归任务。

3. Huber Loss

L={12(yiy^i)2,ifyiy^iδδyiy^i12δ2,elseL= \begin{cases} \frac{1}{2}(y_i-\hat y_i)^{2}, \hspace{1em} if \hspace{0.25em} \left| y_i-\hat y_i \right|\leq\delta \\ \delta \left| y_i-\hat y_i \right|-\frac{1}{2}\delta^{2} , \hspace{0.45em} else \end{cases}

  结合MSE和MAE优点,δ\delta 为超参数。

  应用场景:异常值较多的回归任务。

4. 分位数损失(Quantile Loss)

L=i=1N{τyiy^i,ifyiy^i(1τ)yiy^i,elseL=\sum_{i=1}^{N}\begin{cases} \tau \left| y_i-\hat y_i \right|, \hspace{1em} if \hspace{0.25em} y_i\geq\hat y_i \\ (1-\tau) \left| y_i-\hat y_i \right| , \hspace{0.45em} else \end{cases}

  其中,τ\tau为目标分位数(如0.5对应中位数回归)。

  应用场景:金融风险预测。

三、其他任务损失函数

1. 对比损失(Contrastive Loss)

L=12Ni=1N[yidi2+(1yi)(max(0,mdi))2]L=\frac{1}{2N}\sum_{i=1}^{N}\left[ y_id_i^{2}+(1-y_i)( max(0,m-d_i) )^2 \right]

  其中,did_i是样本对的距离,mm为间隔参数。

  应用场景:孪生网络、人脸识别。

2. Triplet Loss

L=max(0,d(a,p)d(a,n)+m)L=max(0,d(a,p)-d(a,n)+m)

  其中,aa(anchor)、pp(positive)、nn(negative)组成三元组,mm为间隔。

  应用场景:度量学习(如人脸验证)。

3. Dice Loss

L=12XYX+YL=1-\frac{2\left| X\cap Y \right|}{\left| X \right|+\left| Y \right|}

  衡量集合相似度,对类别不平衡敏感。

  应用场景:图像分割(如UNet)。

4. Wasserstein Loss

  用于衡量两个分布之间的Earth-Mover距离。

  应用场景:生成对抗网络(WGAN)。

四、选择损失函数的注意事项

  任务类型:分类任务常用交叉熵,回归任务常用MSE/MAE。

  异常值:MAE或Huber Loss对异常值更鲁棒。

  类别不平衡:Focal Loss或Dice Loss可调整样本权重。

  梯度特性:MSE梯度随误差增大而增大,可能需梯度裁剪。


  通过合理选择损失函数,可以显著提升模型性能。实际应用中可能需要结合任务需求自定义损失函数(如多任务学习中的加权组合)。