摘要
什么是正交约束
- 在训练过程中通过约束来鼓励或强制参数矩阵保持正交。
正交约束的作用
- 稳定激活输出后的分布。
- 常用于解决梯度消失或爆炸等问题。
当 。
- 特征解耦。
论文主要解决问题
- 优化训练过程中的收敛性、速度和稳定性,同时保证模型性能。
主要方法
- 硬约束 比如在训练过程中对目标矩阵的 重复进行奇异值分解等操作,强制其正交性。
Generalized backpropagation,’{E} tude de cas: Orthogonality
On orthogonality and learning recurrent networks with long term dependencies
Orthogonal Weight Normalization Solution to Optimization over Multiple Dependent Stiefel Manifolds in Deep Neural Network
- 软约束 比如在使用带有惩罚项的正则化器,鼓励其正交性。
All you need is beyond a good init Exploring better
Can We Gain More from Orthogonality Regularizations in Training Deep CNNs
On orthogonality and learning recurrent networks with long term dependencies
背景动机
- RNN中存在梯度消失和梯度爆炸问题,一般会使用正交约束,但是进行严格正交是否就是最好的呢?
研究目标
- 提出一种权值矩阵分解的参数化策略,通过参数约束矩阵范数,并允许其偏离正交,探究是否严格正交造成的影响。
方法
梯度爆炸和梯度消失与参数矩阵 的最大增益和最小增益有关,而 的最大增益为其谱范数。
谱范数的物理意义是:对于任何一个向量,在经过矩阵的变换后,新的向量长度小于等于原来的向量长度乘以该矩阵的谱范数,换句话说,任何一个向量经过该矩阵后,长度的变化是有限的。
在过去,通常通过软约束或正则化项的形式约束其正交。
而本文章尝试通过更参数化的方式,也就是奇异值分解 来控制其正交性和增益。
为左特征向量组成的矩阵, 为右特征向量组成的矩阵, 为奇异值组成的矩阵。
矩阵的谱范数(最大增益)为最大奇异值,最小增益为最小奇异值。
在优化过程中,沿满足 和 的测地线梯度进行优化,使 和 保持正交。
是我们想要维持正交的矩阵, 是其对于目标函数的雅可比矩阵, 是依赖于这两者的偏对称矩阵,通过凯莱变换映射到一个正交矩阵, 是学习速率。
同时,论文想要探究偏离Stiefel流形(简单来说就是k个正交向量所组成的空间)的影响。
即,若 严格正交,分解后的对角矩阵 中的奇异值都为1,但是我们允许其中的奇异值偏离。
我们对 进行参数化约束奇异值最大和最小偏离程度。 是偏离边缘,用于衡量偏移幅度。
。通过上式将奇异值限制在 。
实验结论
使用不同大小的边缘 (m大束缚小)测试,发现收敛速度随着 增大而变快,但是在长序列任务下,过大的 会使其无效。
性能:
综上,对于不同 task ,模型表现不同;在 sequence training 中,正交约束不应该太严格;而对于 training 的 sequence 非常长的情况,则应该对正交约束比较强才合适。
Can We Gain More from Orthogonality Regularizations in Training Deep CNNs
背景动机
- 权值的正交性是训练神经网络的有利特性,现在已经有多种多样的方式。
- 目前仍缺乏对最先进的CNN的正交性研究。
- 没有很好的针对非平方权值矩阵的正交性评估和约束方案。
研究目标
- 提出新颖的正交正则项方案,评估其在各种先进CNN上的作用。
方法
Baseline:现有的软正交正则化项(SO)
是一个权重衰减项,是对正交程度的一个“放松”。
Double Soft Orthogonality Regularization(DSO)
对于矩阵 ,当矩阵 的 时, 的秩最多为 ,很难靠近 ,因此采用:
对于 和 都可以覆盖。
Mutual Coherence Regularization(MC)
将矩阵 的相互相干性定义为:
可以看出 测量的是 的任意两列之间的最高相关性,为了让 正交, 应尽可能小,而 就是 的第 个元素,因此使用正则项:
Spectral Restricted Isometry Property Regularization(SRIP)
之前的文章得出了一个RIP condition,即对于所有 稀疏的向量 ,存在一个小的 ,使得:
上式可以限制 中基数不大于 的列相互正交。
对于 的情况,RIP condition将有限制整个矩阵 正交的效果,我们此时写成:
而 是矩阵 的谱范数,同时也是其最大奇异值。
又因此 ,因此问题转化成了最小化矩阵 的谱范数:
实验
使用正则化器训练了三个模型,并和原始版本进行了比较,可以看到,SRIP的效果很好,DSO效果不明显。
而由训练曲线可以看到,与非正则化的初始版本相比,所有四种正则化器在初始训练阶段都显著加速了训练过程,并在整个训练(大部分部分)过程中保持更高的准确性。正则化器也可以通过减少训练曲线的波动来稳定训练。
使用SRIP在ImageNet和SVHN上进行比较,效果也很好。
结论
- 文章提出的正则化机制可以实现更好的精度、更稳定的训练曲线和更平滑的收敛,可有效应用于各类先进的CNN上。
Orthogonal Weight Normalization: Solution to Optimization over Multiple Dependent Stiefel Manifolds in Deep Neural Networks
背景动机
- 正交权重约束可以在保留特征的同时降低冗余度,被广泛研究。
- 现有的工作较多限定在RNN的隐藏层到隐藏层的变换。
研究目标
- 文章期望在神经网络中学习更一般的矩形正交矩阵,不局限于RNN或CNN。
方法
设计转换
对于我们要约束的权重矩阵 ,我们使用 来表示,即 。我们期望 正交,即希望 。在反向传播时,梯度信息也会更新在 身上。
我们将 表示为线性的转换,即 ,同时通过 对 进行零中心化, , 是一个全1的d-dimension向量。那么我们如何选择这个 ?
首先,我们希望 接近1,因为我们不希望用 来间接表示 时失真,我们希望它们接近,所以我们用最小二乘的方式衡量这个约束:
对上述问题联立求解,我们可以有:
上式中 ,。 我们用 代表 。 代表 的特征值, 代表 特征向量,即 ,是特征分解。
反向传播
反向传播时,我们希望更新代理参数 ,经过数学推导,反向传播的公式如下:
文章将以上推演出的前向和后向传播计算方法封装为模块,作为可以适应于多种场景的硬正交约束。
实验
Group Based Orthogonalization
对于矩阵 ,当 的情况,将 划分为组大小为 的多个组(每 行为一组),对每个组内进行正交化。
增加组的规模有助于提高正交化,但过大的组的规模将会降低性能,当我们添加学习规模(由“olm-scale-128”表示),它可以帮助实现最佳性能。
结合Batch Normalization 和 Adam Optimization
结合后效果很好。
替换
实验结果表明,使用OLM替换部分网络的原有层后训练的效果提升比较显著。
结论
- 实验结果表明,使用OLM替换原有层后训练的效果提升比较显著。
- 在前向神经网络里面可以确切的学习到正交过滤器。
- 这种学习到的正交过滤器可以提升深度神经网络的效果。