【干货】31篇关于深度学习必读论文汇总(附论文下载地址)Kloud Strife在其博客上盘点了最值得关注的有关深度学习

Kloud Strife在其博客上盘点了最值得关注的有关深度学习的论文，包括架构/模型、生成模型、强化学习、SGD & 优化及理论等各个方面，有些论文名扬四海，有些论文则非常低调。可以根据个人需求进行提取，如果想批量提取，可以查看底部的获取方式！

架构/模型

之前的Convnet网络架构已经少得多，一切都稳定了。有些论文肯定是在推动这项研究。其中首先是安德鲁·布鲁克（Andrew Brock）的破解SMASH，尽管有ICLR的评论，但它已经在1000个GPU上进行了神经架构搜索。

SMASH：基于超网络的模型结构搜索
SMASH : one shot model architecture search through Hypernetworks
论文下载地址：
https://arxiv.org/pdf/1708.05344.pdf

DenseNets(2017更新版)是一个印象深刻又非常单纯的想法。TLDR是“计算机视觉，眼+皮毛=猫，所以万物互联（包括层）”

密集的连接卷积神经
Densely connected convolutional networks
论文下载地址：
https://arxiv.org/pdf/1608.06993.pdf

在CNNs，一个非常被低估的理念是小波滤波器组系数散射变换（conv+maxpool和ReLUctant组建小波理论）。不知何故，令人惊讶的是，这揭示了为什么一个ConvNet前几层像Gabor滤波器，以及你可能不需要培训他们。用Stephane Mallat的话，“我对它的工作原理非常吃惊！”见下文。

缩放散射变换
Scaling the Scattering Transform
论文下载地址：
https://arxiv.org/pdf/1703.08961.pdf

在维基百科上，Tensorized LSTM是新的SOTA，有人英语的编码限制是1.0,1.1 BPC（作为参考，LayerNorm LSTMs大约是1.3 bpc）因为新颖，我更愿意把这篇论文定为“超级网络的复兴之路”。

序列学习Tensorized LSTMs
Tensorized LSTMs for sequence learning
论文下载地址：
https://arxiv.org/pdf/1711.01577.pdf

最后，无需多言。

胶囊间动态路由
Dynamic Routing Between Capsules
论文下载地址：
https://arxiv.org/pdf/1710.09829.pdf

EM路由矩阵胶囊
Matrix capsules with EM routing
论文下载地址：
https://openreview.net/pdf?id=HJWLfGWRb

生成模型

我故意遗漏了英伟达关于GAN网络逐渐增大的令人颇为震惊的论文。

先用自回归家庭–Aaron van den Oord的最新力作，vq-vae，是其中的一个文件，看起来明显的滞后，但想出背景渐变止损功能也是不小的壮举。我敢肯定，一堆的迭代，包括包在ELBO’ed Bayesian层中的ala PixelVAE将会发挥作用。

神经离散表示学习
Neural Discrete Representation Learning
论文下载地址：
https://arxiv.org/pdf/1711.00937.pdf

另一个惊喜来自并行WaveNetwavenet。当每个人都在期待着与Tom LePaine的工作成果保持一致，DeepMind给我们师生分离，并通过解释高维各向同性高斯/物流潜在空间，作为一个可以通过逆回归流自噪声整形的过程，。非常非常整洁。

并行Wavenet
Parallel Wavenet
论文下载地址：
https://arxiv.org/pdf/1711.10433.pdf

头号文件，没有人预料到- Nvidia公司制定了标准。GAN理论完全代替了Wassersteinizing （Justin Solomon的力作），仅保持KL损失。用数据分布的多分辨率近似摒弃了不相交的支持问题。这仍然需要一些技巧来稳定梯度，但经验结果不言自明。

GAN逐渐增长
Progressive growing of GANs
论文下载地址：
https://arxiv.org/pdf/1710.10196.pdf

而今年早些时候Peyre和genevay负责的法国学校定义了最小Kantorovich Estimators。这是Bousquet主导的谷歌团队，该团队曾写下了 VAE-GAN的最终框架。这篇WAAE论文可能是ICLR2018最顶级的论文之一。

VeGAN手册
The VeGAN cookbook
论文下载地址：
https://arxiv.org/pdf/1705.07642.pdf

Wasserstein自动编码器
Wasserstein Autoencoders
论文下载地址：
https://arxiv.org/pdf/1711.01558.pdf

在变分推理面前，没谁比Dustin Tran从强化学习策略和GAN中借鉴到的思路更好，再次推动了先进的VI。

层次式模型
Hierarchical Implicit Models
论文下载地址：
https://arxiv.org/pdf/1702.08896.pdf

强化学习

“被软件/ max-entropy Q-learning主导了一年，我们错了，这些年！

Schulman证实了RL算法的主要的两个成员之间的的等价性。里程碑式的论文，”Nuff 称。

策略梯度与Soft Q-learning的等价性
Equivalence between Policy Gradients and Soft Q-learning
论文下载地址：
https://arxiv.org/pdf/1704.06440.pdf

他有没有在非常仔细的用数学和重新做分区函数计算来证实路径的等价性？没有人知道，除了Ofir：

缩小RL策略和价值之间的差距
Bridging the gap between value and policy RL
论文下载地址：
https://arxiv.org/pdf/1702.08892.pdf

另一篇被低估的论文，Gergely通过找出RL程式和convex 优化理论的相似点，默默的超越了所有人。今年IMHO有关RL论文的佳作，不过知名度不高。

统一的熵规则MDP的观点
A unified view of entropy-regularized MDPs
论文下载地址：
https://arxiv.org/pdf/1705.07798.pdf

如果David Silver的Predictron因某种方式丢掉雷达在ICLR 2017被拒绝，那么Theo的论文就像是一个双重的观点，它以优美而直观的Sokoban实验结果来启动：

想象力增强剂
Imagination-Augmented Agents
论文下载地址：
https://arxiv.org/pdf/1707.06203.pdf

马克·贝莱马尔（Marc Bellemare）发布了另外一个转型的论文 - 废除了所有的DQN稳定插件，并简单地学习了分发（并且在这个过程中击败了SotA）。漂亮。许多可能的扩展，包括与Wasserstein距离的链接。

有分位数回归的RL
A distributional perspective on RL
论文下载地址：
https://arxiv.org/pdf/1707.06887.pdf

分布RL的分布视角
Distributional RL with Quantile Regression
论文下载地址：
https://arxiv.org/pdf/1710.10044.pdf

一个简单，但非常有效，双重whammy的想法。

勘探用噪声网络
Noisy Networks for Exploration
论文下载地址：
https://arxiv.org/pdf/1706.10295.pdf

当然，如果没有AlphaGo Zero的话，这个列表还是不完整的。将策略网络MCTS前后对齐的思想，即MCTS作为策略改进算法（以及使NN近似误差平滑而不是传播的手段）是传说的东西。

在没有人类知识的情况下掌控Go游戏
Mastering the game of Go without human knowledge
论文下载地址：
https://deepmind.com/documents/119/agz_unformatted_nature.pdf

SGD & 优化

对于为什么SGD在非凸面情况下的工作方式（从广义误差角度来看如此难以打败），2017年已经是一年一度的成熟了。

今年的“最技术”论文获得者是Chaudhari。从SGD和梯度流向PDE几乎连接了一切。堪称遵循并完成“Entropy-SGD”的杰作：

深度放松：用于优化深度网络的偏微分方程
Deep Relaxation : PDEs for optimizing deep networks
论文下载地址：
https://arxiv.org/pdf/1704.04932.pdf

贝叶斯认为这是Mandt＆Hoffman的SGD-VI连接。如你所知，我多年来一直是一个繁忙的人，原文如此。

SGD作为近似贝叶斯推断
SGD as approximate Bayesian inference
论文下载链接：
https://arxiv.org/pdf/1704.04289.pdf

前面的文章取决于SGD作为随机微分方程的连续松弛（由于CLT，梯度噪声被视为高斯）。这解释了批量大小的影响，并给出了一个非常好的chi-square公式。

批量大小，diffusion近似框架
Batch size matters, a diffusion approximation framework
论文下载地址：
https://kloudstrifeblog.wordpress.com/2017/12/15/my-papers-of-the-year/

又一篇受Ornstein-Uhlenbeck启发的论文，得到了类似的结果，出自Yoshua Bengio实验室：

影响SGD最小值的三个因素
Three factors influencing minima in SGD
论文下载地址：
https://arxiv.org/pdf/1711.04623.pdf

最后，又一篇Chandhari的论文，讲述SGD-SDE-VI三位一体：

SGD执行VI，收敛到限制周期
SGD performs VI, converges to limit cycles
论文下载地址：
https://arxiv.org/pdf/1710.11029.pdf

理论

我坚信在解释深度学习为什么有用方面，答案将来自谐波/二阶分析和信息论与基于熵的测量之间的交集。 Naftali Tishby的想法虽然因为最近ICLR 2018提交的内容引发了争议，但这仍然使我们更加接近理解深度学习。

论通过信息论揭开深度网络黑箱
Opening the black box of deep networks via information
论文下载地址：
https://openreview.net/pdf?id=ry_WPG-A-

论深度学习的信息瓶颈理论
On the information bottleneck theory of deep learning
论文下载地址：
https://arxiv.org/pdf/1703.00810.pdf

同样，来自ICLR2017的一篇漂亮的论文对信息瓶颈理论采取了一种变化的方法。

深度变分的信息瓶颈
Deep variational information bottleneck
论文下载地址：
https://arxiv.org/pdf/1612.00410.pdf

今年已经有几十亿个生成模型，12亿个因子分解对数似然的方法，大都可以归在凸二元的下面。

A Lagrangian perspective on latent variable modelling
对潜变量建模的拉格朗日观点
论文下载地址：
https://openreview.net/pdf?id=ryZERzWCZ

最后这篇论文展示了惊人的技术实力，并且告诉我们，数学深度学习的军备竞赛仍然十分活跃！这篇论文结合了复杂的分析，随机矩阵理论，自由概率和graph morphisms，得出了对于神经网络损失函数的Hessian特征值的一个精确的定律，而图（graph）的形状只在经验上是已知的，这一点在Sagun等人的论文中有论述。必读。