论文笔记:Asymmetric Loss For Multi-Label Classification

1,145 阅读4分钟

导语

本文是Focal loss基础上的一篇改进工作,旨在解决multi-label的正负样本比例严重不均衡,以及标签错误标注的问题。

1 简介

多标签分类在实际任务中应用广泛,当前多标签分类方法存在着许多局限性,包括架构复杂性和过多依赖外部信息。为解决多标签分类中存在的正负样本不平衡问题,本文提出了一种称为“不对称损失(asymmetric loss,ASL)”的新型损失函数。该损失函数可以有效地平衡负样本和正样本的贡献,并且在处理误标签的情况下仍然能够保持高性能。

作者对该损失函数进行了详细的梯度分析,并提出了一种自适应的方法来控制不对称程度,以简化超参数选择过程。通过在多个数据集上进行实验,作者证明了该方法在多标签分类任务上的有效性,并取得了与最先进方法相比的显著性能提升。该方法基于标准架构,易于实现,并且不需要额外的外部信息。作者还分享了已训练好的模型和可完全复现的训练代码,以便让更多人能够使用该方法。

2 Asymmetric Loss

本节中首先回顾Cross-entropy和Focal Loss。然后,将介绍所提出的非对称损失(ASL)的组成部分,旨在解决多标签数据集固有的不平衡性质。作者还将分析ASL梯度,提供概率分析,并提出一种在训练过程中动态设置损失不对称水平的方法。

2.1 BCE Loss和Focal Loss

多标签分类中通常将问题简化为一系列的二值分类任务。给定K个标签,基本网络每个标签输出一个logit, zkz_k。每个logit由一个sigmoid函数σ(zk)σ(z_k)独立激活。设yky_k为k类的基真值,总分类损失LtotL_{tot}由k个标签的二值损失汇总而得:

image.png

每个label的二元loss的一般形式如下所示:

image.png

其中y是Ground-truth标签, L+和−分别是正损失部分和负损失部分。通过设置L +和L−得到Focal loss:

image.png

γ为聚焦参数。γ = 0产生BCE loss。

2.2 非对称聚焦(Asymmetric Focusing)

当使用Focal loss进行多标签训练时,有一个内在的权衡:设置高γ,以充分降低easy negatives的贡献,可能会消除罕见positive样本的梯度。作者提出解耦正样本和负样本的聚焦水平。设γ +和γ−分别为正负聚焦参数。通过重新定义损耗获得非对称聚焦:

image.png

由于本文强调正样本的贡献,我们通常设置γ>γ+γ− > γ +。不对称聚焦使正负样品的衰减速率解耦。通过这样,可以更好地控制正样本和负样本对损失函数的贡献,并帮助网络从正样本中学习有意义的特征,尽管它们很少见。

2.3 Asymmetric Probability Shifting

当负样本的概率较低时,非对称聚焦降低了负样本对损失的贡献。由于多标签分类中的不平衡程度可能非常高,因此这种衰减并不总是足够的。因此,作者提出了一种额外的不对称机制,即概率转移,它对非常容易的负样本执行硬阈值分割,即当它们的概率非常低时,它完全丢弃负样本。将移位概率pm定义为:

image.png

其中,m≥0为可调超参数。将pmp_m集成到Eq.(3)的L−中,得到一个非对称的概率位移焦损失(asymmetric probability-shifted focal loss):

image.png

图2绘制了负样本的asymmetric probability-shifted focal loss,并将其与常规Focal loss和交叉熵进行比较。

image.png

2.4 ASL定义

为了定义非对称损失,作者将非对称聚焦和概率转移两种机制整合为一个统一的公式:

image.png

2.5 梯度分析

作者进行了ASL loss梯度的详尽分析,具体如下:

image.png

image.png

3-4 实验与结果

主要的实验结果如下面的表格所示:

image.png

image.png

image.png

可以看到,在主要的三个CV数据集上,ASL对SOTA方法的提升显著。

5 总结

本文提出了一种用于多标签分类的非对称损失(ASL)方法。ASL包含两种互补的不对称机制,它们在阳性和阴性样本上的作用不同。通过研究ASL,对损失特性有了更深入的了解。通过网络概率分析,本文证明了ASL在平衡负样本和正样本方面的有效性,并提出了一种可以在整个训练过程中动态调整不对称水平的自适应方案。广泛的实验分析表明,ASL在流行的多标签分类基准上优于常见的损失函数和以前最先进的方法,包括MS-COCO, Pascal-VOC, NUSWIDE和Open Images。