ICLR:深度学习为何有效,其局限性是什么?
深度学习理论近期呈现两大趋势:对双下降现象的研究,以及更贴近实际的神经核方法新思路。
理论背景
在国际学习表征大会(ICLR)上,某机构学者指出,尽管表示学习和深度学习已取得惊人成功,但深度网络仍如黑箱。深度学习数学领域旨在通过定理和数学证明来保证深度网络的性能,例如解释网络为何能泛化到新数据集,以及理解简单优化方法在复杂问题中成功的原因。
双下降现象
传统观点认为神经网络规模需与问题复杂度及训练数据量匹配。网络过小无法学习复杂模式,过大则会导致过拟合。但近年研究发现,当网络规模持续增大时,测试误差会再次下降,形成"双下降曲线"。这一现象目前尚无明确理论解释。
神经正切核方法
另一种新分析思路基于神经正切核。与固定嵌入的传统核方法不同,深度学习通过学习数据嵌入映射来实现表示学习。在无限宽度网络等理想化设定下,可用经典理论分析深度学习动态,但当前研究正转向更实际的有限宽度网络和有限步长梯度下降方法。
表示学习的局限性
在医疗等数据稀缺领域,仅靠大数据和深度网络可能不足。域知识仍至关重要,例如通过化学纯化等专业方法获取弱标签数据。这表明解决实际问题需要结合领域专业知识,而非单纯追求更大网络和更多数据。
研究意义
这些理论进展有助于揭示深度学习的工作原理,推动其在更多领域的有效应用,同时明确其适用边界。