第二弹卷积核扩大到31可以超过VIT？重新审视CNN的大卷积核设计作者：陈亦新（欢迎交流共同进步）联系方式：微信cy

作者：陈亦新（欢迎交流共同进步）
联系方式：微信cyx645016617

描述

论文地址：arxiv.org/abs/2203.06…
论文CVPR2022，目的为用讨论ViTs的优势，并且如何用CNN来实现ViT的性能。取代糖网分类现有MIL-VT模型

受到ViT的影响，重新审视了CNN的卷积核设计，并且指出用少量大型核比使用很多小型核的表现更好。 ViT的强大的原因，人们普遍认为是多头自注意力MHSA机制起到的关键作用。对于ViT的强大有很多的相关的论文，首先是MHSA具有更灵活的结构，更少的偏差，对于失真也更加鲁邦，能够建立长期以来。另外一部分的研究则在挑战MHSA的必要性，将ViT的高性能归结于：适当的构建快、动态稀疏权值。

MHSA通常被设计成全局或者局部的，但是两者都具有较大的接受域（视野域），因此每个MHSA层的输出都是从一个相对比较大的区域搜集信息。但是大型卷积核在CNN中并不普遍。一般使用大型卷积核的场景如下：

老式的AlexNet；
卷积网络的第一层；
通过NAS构建的网络架构；那么问题来了：多个小的卷积核真的是卷积的答案吗？

人们一般认为，大卷积核在计算上是昂贵的。因为使用了depthwise的卷积策略来克服这个问题。而且depthwise卷积在gpu的并行计算设备上效率低，而增大了卷积核也会增加depthwise卷积的计算密度。

下游任务更好

大型卷积核设计增加了视野域，很多工作证明了“上下文”在下游工作当中，有着重要的作用，比方说目标检测和语义分割。我们认为另一个原因是大型内核设计对网络造成更多的形状的学习。简单的说，图像的表达可以通过形状或者纹理。然而人类识别物体的依据主要是基于形状线索而不是纹理线索。因此具有较强形状线索的模型，可以更好的迁移到下游任务。最近也有研究表明，ViT族的模型具有强烈的形状偏差，因此ViTs的模型在迁移任务当中具有强大的能力。

第二弹 卷积核扩大到31可以超过VIT？重新审视CNN的大卷积核设计

描述

下游任务更好

RepLKNet结构

第二弹卷积核扩大到31可以超过VIT？重新审视CNN的大卷积核设计