必读论文 | 卷积神经网络百篇经典论文推荐

326 阅读11分钟

作为深度学习的代表算法之一,卷积神经网络(Convolutional Neural Networks,CNN)在计算机视觉、分类等领域上,都取得了当前最好的效果。
卷积神经网络的前世今生
卷积神经网络的发展,最早可以追溯到 1962 年,Hubel 和 Wiesel 对猫大脑中的视觉系统的研究。
1998 年,著名计算机科学家 Yann LeCun 在论文 Gradient-Based Learning Applied to Document Recognition 中提出了 LeNet-5,将 BP 算法应用到神经网络结构的训练上,形成了当代卷积神经网络的雏形。
直到 2012 年,AlexNet 网络出现之后,神经网络开始崭露头角。在 Imagenet 图像识别大赛中,Hinton 组的论文 ImageNet Classification with Deep Convolutional Neural Networks 中提到的 Alexnet 引入了全新的深层结构和 dropout 方法,一下子把 error rate 从 25% 以上提升到了 15%,一举颠覆了图像识别领域。此后卷积神经网络声名大噪并蓬勃发展,广泛用于各个领域,在很多问题上都取得了当前最好的性能。
2015 年深度学习领域的三巨头 LeCun、Bengio、Hinton 在 Nature 上发表一篇综述文章 Deep Learning,系统地总结了深度学习的发展前世今生。
在 2016 年,CNN 再次给人们一个惊喜:谷歌研发的基于深度神经网络和搜索树的智能机器人“AlphaGo”在围棋上击败了人类,更惊喜的是谷歌在 Nature 专门发表了一篇文章来解释 AlphaGo,文章名字为 Mastering the game of Go with deep neural networks and tree search。
随后利用了 ResNet 和 Faster-RCNN 的思想,一年后的 Master 则完虐了所有人类围棋高手,达到神一般的境界,人类棋手毫无胜机。后来又有很多复现的开源围棋 AI,每一个都能用不大的计算量吊打所有的人类高手。
可以说,卷积神经网络是深度学习算法应用最成功的领域之一。
卷积神经网络百篇经典论文
研读卷积神经网络的经典论文,对于学习和研究卷积神经网络必不可缺。
根据相关算法,AMiner 从人工智能领域国际顶会/期刊中提取出“卷积神经网络”相关关键词,筛选并推荐了 100 篇经典必读论文。

这 100 篇论文大多发表于 2015 年至 2019 年间,主要发表在 CVPR、ICCV、ICML、NeuIPS 等计算机视觉顶级学术会议上。
在该领域发表论文最多的学者中,“神经网络之父”、“深度学习鼻祖”Hinton 与 Bengio 双双上榜,为深度学习研究持续贡献了力量。
按照这 100 篇经典论文的被引用量,我们挑选了其中的 TOP10 作简单评述。


Fully Convolutional Networks for Semantic Segmentation(CVPR2015)
引用量:13136
论文作者:Jonathan Long,Evan Shelhamer,Trevor Darrell
作者单位:UC Berkeley

本篇论文是神经网络大神 Jonathan Long 与他的博士同学 Evan Shelhamer、导师 Trevor Darrell 的代表作,获得了 CVPR 2015 年最佳论文奖。该文的核心贡献,在于提出了全卷积网络(FCN)的概念,它是一种可以接受任意大小图像并输出与输入等大的图像的全卷积神经网络。
CNN 近年来发展迅速,在图像领域更是主流方法,驱动着物体检测、关键点检测等的发展,但 CNN 对于图像语义分割却在时间和精度方面都表现不好。本文提出了 FCN,针对语义分割训练一个端到端,点对点的网络,达到了 state-of-the-art。这是第一次训练端到端的 FCN,用于像素级的预测;也是第一次用监督预训练的方法训练 FCN。


Convolutional Neural Networks for Sentence Classification(EMNLP 2014)
引用量:5978
论文作者:Yoon Kim
作者单位:纽约大学

2012 年在深度学习和卷积神经网络成为图像任务明星之后, 2014 年 TextCNN 诞生于世,成为了 CNN 在 NLP 文本分类任务上的经典之作。TextCNN 提出的目的在于,希望将 CNN 在图像领域中所取得的成就复制于自然语言处理 NLP 任务中。
TextCNN 是一种采用卷积神经网络(CNN)提取文本 n-gram 特征,最大池化,全连接然后进行分类的一种新型模型。它在当时对文本分类 SVM 老大的位置提出了挑战,虽然当时 TextCNN 模型效果没有完全超过 SVM,但 CNN 的热潮使得 TextCNN 极受追捧,成为 NLP 文本分类任务的经典模型。


Large-Scale Video Classification with Convolutional Neural Networks(CVPR2014)
引用量:4145
论文作者:Andrej Karpathy,George Toderici,Sanketh Shetty,Thomas Leung,Rahul Sukthankar,Li Fei-Fei
作者单位:谷歌,斯坦福大学

该文研究了多种方法来扩展 CNN 在时域上的连通性,以利用局部时空信息,作者提出一个多分辨率、新颖的框架的方式来加快训练(计算效率)。
文章的贡献点主要有三个:
1.将 CNN 拓展,用于视频分类;
2.使用两种不同的分辨率的帧分别作为输入,输入到两个 CNN 中,在最后的两个全连接层将两个 CNN 统一起来;两个流分别是低分辨率的内容流和采用每一个帧中间部分的高分辨率流;
3.将从自建数据库学习到的 CNN 结构迁移到 UCF-101 数据集上面。
作者提出的模型与单帧模型相比性能有了显著提升,为此作者进一步研究了其中表现最佳的模型的泛化能力,即通过在 UCF-101 数据集上重新训练顶层,相比基准模型性能显著改善。


How transferable are features in deep neural networks? (NIPS 2014)
引用量:3414
论文作者:Jason Yosinski,Jeff Clune,Yoshua Bengio,Hod Lipson
作者单位:卡耐基梅隆大学,怀俄明大学,蒙特利尔大学

本文是 Bengio 团队关于迁移学习(Transfer Learning)的研究,文章通过研究特征的可迁移性来对这个从泛化的特化的过程进行评估,对于研究深度神经网络特征的可迁移性具有重要意义。
本文实验了深度神经网络中不同层神经元的泛化性能和特异性,模型的迁移能力主要受到两个因素的影响:1)深度模型在越深的层,其专业性(specialization)越强,即越只能完成特定任务,这使得深度模型学习到的深层特征迁移性很差;2)模型在优化过程中,层与层之间的参数的优化是有关联性,当固定浅层的权值,来训练高层权值时,会打破这种关联性,使得模型的能力变差,泛化能力也变差。上述两个问题在深度神经网络的不同层发生占比不一样。文章还证明了利用训练好的迁移特征,初始化一个新网络,不论初始化几层,都能够对增强模型起到最终的效果。


Learning Spatiotemporal Features with 3D Convolutional Networks(ICCV2015)
引用量:2711
论文作者:Du Tran,Lubomir Bourdev,Rob Fergus,Lorenzo Torresani,Manohar Paluri
作者单位:Facebook,达特茅斯学院

这篇文章介绍了在大规模有监督的视频数据集下,训练出了一种简单且高效的三维卷积神经网络的方法来学习时空特征。
3D ConvNets 的特征将与视频中的对象、场景和动作相关的信息封装起来,使其对各种任务有用,而无需为每个任务分配模型。
3D 卷积网络的优势有三点:
1)同2D 卷积网络相比,3D 卷积网络更适合时空特征的学习;
2)3D 卷积网络的每一层的卷积核的结构是齐次的,并且在很多结构中都适用;
3)将学到的特征成为 C3D,带有一个简单的线性分类器,在 4 个不同的 benchmarks 上测试都实现了最好的性能,并且在另外的 2 个 benchmarks 上与目前的最好的方法相媲美。


SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
引用量:2373
论文作者:Vijay Badrinarayanan,Alex Kendall,Roberto Cipolla
作者单位:剑桥大学

本文提出了一种用于像素级语义分割的深度全卷积神经网络结构 SegNet。
SegNet 的创新点在于译码器对输入的低分辨率特征图的上采样处理方式。具体来讲,解码器利用在 max-pooling 过程中计算的池化 indices,计算对应的编码器的非线性上采样。这个操作就省去了上采样过程的学习。上采样后的 map 是稀疏的,再用可学习的 filter 通过卷积计算稠密的特征图。
作者比较了文中的结构与 FCN、DeepLab-LargeFOV 和 DeconvNet 结构。
由于SegNet 的设计初衷来源于场景理解(scene understanding),因此在内存和计算时间上效率很高,可学习参数量也比其他结构小,可以用 SGD 端到端训练。
在道路场景和 SUN RGB-D 室内场景下进行了排名。


XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks(ECCV2016)
引用量:1713
论文作者:Mohammad Rastegari,Vicente Ordonez,Joseph Redmon,Ali Farhadi
作者单位:艾伦人工智能研究所,华盛顿大学

该文针对标准卷积神经网络提出了两种有效的近似网络:二元权重网络和 XNOR 网络。二元权重网络中,卷积核用两个值来近似表示,从而节省 32 倍的存储空间。在 XNOR 网络中,卷积核和卷积层输入都是用两个值(1 和 -1)表示的。XNOR 网络主要使用二元运算进行卷积运算。这使得卷积操作速度提高了 58 倍,节省了 32 倍的内存。
XNOR 网络实现了在 CPU(而不是 GPU)上实时运行最先进网络的可能。我们的二元权值网络简单、准确、高效,并且能够处理具有挑战性的视觉任务。我们在 ImageNet 分类任务上评估我们的方法。AlexNet 二元权值版本的分类准确性与全精度 AlexNet 相同。我们将我们的方法与最近的网络二值化方法 BinaryConnect 和 BinaryNets 进行比较,并且在 ImageNet 上以大幅优势胜过这些方法,超过了 top-1 16% 的精度。


Character-level Convolutional Networks for Text Classification(NIPS2015)
引用量:1701
论文作者:Xiang Zhang,Junbo Zhao,Yann LeCun
作者单位:纽约大学

在这篇论文中,作者将字符级的文本当作原始信号,并且使用一维的卷积神经网络来处理它。研究表明,单词嵌入表示可以直接用于卷积神经网络,而无需考虑语言的语法或语义结构。
作者发现,当训练大规模数据集时,深度卷积神经网络并不需要单词层面的意义(包括语言的语法和语义),这是非常激动人心的工程简化,因为不管什么语言,它都是由字符组成的,因此这对于构建跨语言的系统至关重要。还有一个好处,对于异常的字符组成(比如拼写错误)和表情符,该模型依然能够应付。


Towards End-To-End Speech Recognition with Recurrent Neural Networks(ICML2014)
引用量:1339
论文作者:Alex Graves,Navdeep Jaitly
作者单位:DeepMind,多伦多大学

本文提出了一种语音识别系统,该系统不需要中间语音表示,直接用文本对音频数据进行转录。该系统是基于深度双向 LSTM 递归神经网络结构和连接主义者的时间分类目标函数相结合的。引入了目标函数的修正,训练网络最小化任意转录损失函数的期望。这允许对单词错误率进行直接优化,即使在没有词汇或语言模型的情况下也是如此。该系统在没有先验语言信息的《华尔街日报》语料库中实现了 27.3% 的错误率,在只使用允许单词的词典的情况下实现了 21.9% 的错误率,在使用 trigram 语言模型的情况下实现了 8.2% 的错误率。将网络与基线系统相结合进一步将错误率降低到 6.7%。


DRAW: A Recurrent Neural Network For Image Generation(ICML 2015)
引用量:1186
论文作者:Karol Gregor,Ivo Danihelka,Alex Graves,Danilo Jimenez Rezende,Daan Wierstra
作者单位:Google DeepMind

本文出自 Google DeepMind 实验室,介绍了一种可应用于图像生成的 Deep Recurrent Attentive Writer(DRAW)神经网络模型,此模型能够生成高质量的自然图像,并提高了当前在 MNIST 数据集上生成模型表现的最好水平。此外,使用 SVHN 数据集训练的 DRAW 模型生成的图片,裸眼无法分辨其与真实数据的区别。