IL:多个预训练任务的声音和视觉表征学习

189 阅读3分钟
参与拿奖:本文已参与「新人创作礼」活动,一起开启掘金创作之路
论文题目:Sound and Visual Representation Learning with Multiple Pretraining Tasks[1]
来源:Arxiv2022
一、Motivation

论文中指出不同的自监督任务从数据中揭示了不同的特征,而对于下游任务也会取得不同的表现。这篇文章旨在联合多个自监督任务,使得其在所有下游任务中都取得较好的表现。

二、Model

image.png 如上图所示,在预训练阶段引入多个自监督任务,汇合成一个多自监督任务,然后将这个多自监督所学习的知识用于所有的下游任务。

image.png 上图说明了对于多任务学习来说,有不同的训练形式:

图(a)是为每一个任务分配一个Encoder,将所有训练好的所有Encoder拼接用于下游任务;图(b)是所有任务都使用同一个Encoder,所有任务时训练这个Encoder,最后将训练好的Encoder用于下游任务;图(c)是为第一个任务分配一个Encoder,然后对其进行增量式学习,将任务串联,依次在这个Encoder上进行训练(注意:对每一个任务进行训练时,都会重新更新前面任务训练好的参数),将最终获得的Encoder用于下游任务。

三、Data & Experments

image.png 作者做了关于单自监督任务与多自监督任务的效果,如下表所示:

image.png 先看边的表,A,B,C分别表示空间对齐、前景对齐、时间间隔预测三个自监督任务,而SP、S3R、VR分别表示语义预测、空间声音超分辨率、视频检索三个下游任务。

右边的表对比了不同的多自监督任务方法在不同多自监督任务上的效果,可以看出增量学习(IL)取得了最佳效果。

四、Perfomance

image.png 从上表可以看出与拼接和多任务学习相比,增量学习在三个下游任务上都取得了最佳效果。

同时作者还做了关于图像分类、对象识别、句子切分任务的实验:

image.png

五、Ablation Study

作者做的消融实验就是对于使用更多的自监督任务可以取得更好的效果,如下表3所示。 image.png

六、Conclusion

文章中所提出的增量式学习多任务学习方法,在多个下游任务中都取得了最佳效果,证明了该方法的有效性。我的想法就是,该方法利用增量学习的思路,使得模型在每个任务中都能学到一些有用的信息。但也有一些缺点,例如如何设置自监督任务(包括任务的种类、数量、顺序)也许会对该方法产生较大的影响。

七、References

[1] Vasudevan A B, Dai D, Van Gool L. Sound and Visual Representation Learning with Multiple Pretraining Tasks[J]. arXiv preprint arXiv:2201.01046, 2022.