概述
- 残余网络具有类似于合奏的行为
- 分析结果
1.残余网络具有类似于集合体的行为
1.1.序言
- 残差模块在 剩余网络 中的残差模块通常被表述如下:
1.2.类似于集合体的行为
一个3块残余网络的解开视图
- 每个阶段的输出都是基于两个子项的组合。
因此,残差网络的共享结构显然是通过将递归展开成指数级的嵌套项,在每个替换步骤中扩展一层:
该图清楚地表明, **数据沿着许多路径从输入到输出流动。**每条路径都是一个独特的配置,即进入哪个剩余模块和跳过哪个模块。
1.3.与普通网络的比较
- 在经典的朴素网络中,每一层的处理只取决于前一层的输出。
然而,在残差网络中,残差网络中的每个模块fi() 的数据来自2^(i-1)个不同分布的混合物,这些分布 由前i-1个残差模块的每个可能配置产生。
2.分析结果
2.1.在测试时从神经网络中删除个别层
在测试时间(a)删除剩余网络中的一个层,相当于将一半的路径归零。
**当一个层被删除时,路径的数量从2^n减少到2^(n-1),**剩下一半的路径有效。
图3:将个别层从 VGGNet/删去个别层 左图:CIFAR-10,右图:ImageNet。
删除VGGNet中的任何层 VGGNet 将性能降低到偶然水平。令人惊讶的是,这并不是VGGNet的情况 。 ResNet.
2.2.在测试时从残余网络中删除/重新排序许多模块
(a) 从残余网络中随机删除几个模块时,误差平稳增加。(b)通过洗刷构件来重新排序残余网络时,误差也会平稳增加。
- 集合体的一个关键特征是其性能平稳地取决于成员的数量。
(a): **删除越来越多的残余模块,误差会平稳地增加。**这意味着残差网络 的行为与集合体相似。
(b): k个随机抽样的具有兼容维度的构件对被调换。随着腐败的增加, 误差也平稳地增加。
2.3.剩余网络中短路径的重要性
(a) 所有可能的路径长度的分布。这遵循二项分布**。(b) 通过不同长度的路径在网络的第一层诱发多少梯度**,这似乎与梯度经过的模块数量大致呈指数级衰减。(c) 将这两个函数(a)&(b)相乘,看看 有多少梯度来自于一定长度的所有路径。
令人惊讶的是,训练期间 几乎所有的梯度更新 都来自5到17个模块的路径。
这些是有效的路径,尽管它们只占这个网络中所有路径的0.45%。此外,与网络的总长度相比,有效路径 相对较浅。
2.4. 随机深度
左图:删除个别层后剩余路径的比例。Right: 影响 随机深度 对删除层的弹性的影响。
- 删除残余模块主要是删除长路径。
左图:即使删除了10个剩余模块,许多 长度在5到17个模块之间的有效路径 仍然有效。
右图:在训练过程中,每个小批次都会选择一个随机的剩余模块子集。训练 随机深度 略微提高了复原力。
-
(如果感兴趣,请随时阅读随机深度)。
-
现在,有许多模型被提出来,其权重层的数量要少得多,也就是说,要浅一些。