- 作者:陈亦新(欢迎交流共同进步)
- 联系方式:微信cyx645016617
描述
- 论文地址:arxiv.org/abs/2203.06…
- 论文CVPR2022,目的为用讨论ViTs的优势,并且如何用CNN来实现ViT的性能。取代糖网分类现有MIL-VT模型
受到ViT的影响,重新审视了CNN的卷积核设计,并且指出 用少量大型核比使用很多小型核的表现更好。 ViT的强大的原因,人们普遍认为是 多头自注意力MHSA机制起到的关键作用。对于ViT的强大有很多的相关的论文,首先是MHSA具有更灵活的结构,更少的偏差,对于失真也更加鲁邦,能够建立长期以来。另外一部分的研究则在挑战MHSA的必要性,将ViT的高性能归结于:适当的构建快、动态稀疏权值。
MHSA通常被设计成全局或者局部的,但是两者都具有较大的接受域(视野域),因此每个MHSA层的输出都是从一个相对比较大的区域搜集信息。但是大型卷积核在CNN中并不普遍。一般使用大型卷积核的场景如下:
- 老式的AlexNet;
- 卷积网络的第一层;
- 通过NAS构建的网络架构; 那么问题来了:多个小的卷积核真的是卷积的答案吗?
人们一般认为,大卷积核在计算上是昂贵的。因为使用了depthwise的卷积策略来克服这个问题。而且depthwise卷积在gpu的并行计算设备上效率低,而增大了卷积核也会增加depthwise卷积的计算密度。
下游任务更好
大型卷积核设计增加了视野域,很多工作证明了“上下文”在下游工作当中,有着重要的作用,比方说目标检测和语义分割。我们认为另一个原因是大型内核设计对网络造成更多的形状的学习。简单的说,图像的表达可以通过形状或者纹理。然而人类识别物体的依据主要是基于形状线索而不是纹理线索。因此具有较强形状线索的模型,可以更好的迁移到下游任务。最近也有研究表明,ViT族的模型具有强烈的形状偏差,因此ViTs的模型在迁移任务当中具有强大的能力。