第二弹 卷积核扩大到31可以超过VIT?重新审视CNN的大卷积核设计

636 阅读2分钟
  • 作者:陈亦新(欢迎交流共同进步)
  • 联系方式:微信cyx645016617

描述

  • 论文地址:arxiv.org/abs/2203.06…
  • 论文CVPR2022,目的为用讨论ViTs的优势,并且如何用CNN来实现ViT的性能。取代糖网分类现有MIL-VT模型

受到ViT的影响,重新审视了CNN的卷积核设计,并且指出 用少量大型核比使用很多小型核的表现更好。 ViT的强大的原因,人们普遍认为是 多头自注意力MHSA机制起到的关键作用。对于ViT的强大有很多的相关的论文,首先是MHSA具有更灵活的结构,更少的偏差,对于失真也更加鲁邦,能够建立长期以来。另外一部分的研究则在挑战MHSA的必要性,将ViT的高性能归结于:适当的构建快、动态稀疏权值。

MHSA通常被设计成全局或者局部的,但是两者都具有较大的接受域(视野域),因此每个MHSA层的输出都是从一个相对比较大的区域搜集信息。但是大型卷积核在CNN中并不普遍。一般使用大型卷积核的场景如下:

  • 老式的AlexNet;
  • 卷积网络的第一层;
  • 通过NAS构建的网络架构; 那么问题来了:多个小的卷积核真的是卷积的答案吗?

人们一般认为,大卷积核在计算上是昂贵的。因为使用了depthwise的卷积策略来克服这个问题。而且depthwise卷积在gpu的并行计算设备上效率低,而增大了卷积核也会增加depthwise卷积的计算密度。

下游任务更好

大型卷积核设计增加了视野域,很多工作证明了“上下文”在下游工作当中,有着重要的作用,比方说目标检测和语义分割。我们认为另一个原因是大型内核设计对网络造成更多的形状的学习。简单的说,图像的表达可以通过形状或者纹理。然而人类识别物体的依据主要是基于形状线索而不是纹理线索。因此具有较强形状线索的模型,可以更好的迁移到下游任务。最近也有研究表明,ViT族的模型具有强烈的形状偏差,因此ViTs的模型在迁移任务当中具有强大的能力。

RepLKNet结构