ICLR:深度学习为何有效,及其极限何在?
在本年度的国际学习表征会议(ICLR)上,宾夕法尼亚大学的放射学和电气工程教授、同时也是某机构学者的雷内·维达尔担任了高级领域主席。他负责监督一个评审团队,评估提交至该会议的论文。维达尔表示,他的团队重点关注的论文主题是深度学习理论。
维达尔解释道:“虽然表征学习和深度学习取得了令人难以置信的成功,并在许多应用领域产生了惊人的结果,但深度网络仍然是一个黑匣子。如何设计深度网络仍然是一门艺术;在每个数据集上都需要进行大量的试错。因此,大体上,深度学习的数学领域旨在通过定理和数学证明来保证深度网络的性能。人们可以提出诸如‘为什么深度网络能从一个数据集泛化到另一个数据集?’、‘能否有一个定理可以告诉你新数据集上的分类错误与训练数据集上的分类错误之间的关系?’、‘能否根据训练样本数量等因素推导出该错误的界限?’等问题。”
“此外,还有关于优化的问题。如今,有时需要在数十亿参数上最小化损失函数。由于优化问题规模如此庞大,且训练样本众多,出于计算原因,只能使用非常简单的优化方法。对于这些非凸问题,能否证明其收敛性?能否理解收敛到了什么?为什么这些非常简单的优化方法对这些非常复杂的问题如此成功?”
双重下降
维达尔特别指出,深度学习理论中有两个话题近来引起了越来越多的关注。第一个是所谓的双重下降现象。
人工智能领域的传统观点认为,神经网络的大小必须根据其要解决的问题和可用训练数据的量来仔细调整。如果网络太小,它无法学习数据中的复杂模式;但如果变得太大,它可能只是记住了训练集中所有数据的正确答案——这是一种特别严重的过拟合情况——并且无法泛化到新的输入。
因此,对于给定的问题和训练数据集,随着神经网络大小的增长,其在未见过的测试数据上的错误率会下降。然而,在某个点之后,随着网络开始过拟合数据,错误率又开始上升。
但在过去几年中,许多论文报告了令人惊讶的结果:随着网络继续增长,错误率再次下降。这就是双重下降现象——目前没有人确切知道为什么会发生这种情况。
维达尔解释说:“错误率随着模型大小的增长而下降,然后随着过拟合而回升。在所谓的插值极限处达到峰值,这正是训练中可以达到零误差的时候,因为网络足够大,可以记住所有数据。但从那以后,测试误差再次下降。已经有很多论文试图解释为什么会发生这种情况。”
神经正切核
维达尔表示,深度网络理论中另一个有趣的新趋势涉及基于神经正切核的新分析方法。
“过去——比如2000年——我们进行学习的方式是使用所谓的核方法。核方法基于获取数据,并使用固定的嵌入将其映射到一个非常高维的空间,在那里一切都看起来是线性的。我们可以在那个嵌入空间中使用经典的线性学习技术,但嵌入空间是固定的。”
“你可以将深度学习视为学习那个嵌入——将输入数据映射到某个高维空间。事实上,这正是表征学习。神经正切核机制——一种初始化类型、一种神经网络类型、一种训练类型——是一种机制,在这种机制下,你可以使用核来近似深度网络的学习动态。因此,你可以使用经典技术来理解它们为什么能泛化,以及为什么不能泛化。”
“这种机制非常不切实际——网络具有无限宽度,或者在训练期间权重变化不大的初始化。在这种非常人为和专门化的设置中,事情更容易,我们可以更好地理解它们。当前的趋势是如何摆脱这些不切实际的假设,并承认问题很难:你确实希望在训练期间权重发生变化,因为如果不改变,你就学不到多少东西。”
事实上,维达尔本人在今年被人工智能与统计会议(AISTATS)接受的一篇论文中也探讨了这个话题,合著者来自他在约翰斯·霍普金斯大学的前研究团队。
维达尔说:“我们试图摆脱的三个假设是:第一,能否为有限宽度(而非无限宽度)的网络获得定理?第二,能否为具有有限步长的梯度下降类方法获得定理?因为许多早期的定理假设步长非常非常小——小到无穷小。我们正在放宽的第三个假设是关于初始化的假设,它变得更加普遍。”
表征学习的极限
当ICLR在2013年成立时,它是一个供研究人员探索替代机器学习方法(如核方法,它们以固定、预先指定的方式表示数据)的场所。然而现在,使用学习表征的深度学习已经占据了机器学习领域的主导地位,ICLR与其他主要机器学习会议之间的区别已经缩小。
然而,作为在约翰斯·霍普金斯大学担任了20年生物医学工程教授的人,维达尔对表征学习的局限性有着敏锐的认识。对于某些应用,他表示领域知识仍然至关重要。
“这在数据或标签可能不丰富的领域中发生,”他解释说,“例如,在医学领域,一项研究中可能只有100名患者,或者你可能无法将数据放在每个人都可以注释的网站上。”
“举个具体例子,我参与过一个项目,需要开发一种血液测试,需要将白细胞分类成不同类型。永远不会有人对数百万个细胞进行录像,你也不会让病理学家像在计算机视觉中做目标检测那样注释每一个细胞。”
“因此,我们所能得到的只是血液测试的实际结果:浓度是多少?你可能有一百万个第一类、第二类、第三类的细胞,而你只有这些非常弱的标签。但领域专家说,我们可以通过在这里和那里添加这些化学物质来进行细胞纯化,然后进行离心等等,然后在这个样本中我们只得到一种类型的细胞。因此,你现在可以假装你有标签,因为我们知道具有不同标签的细胞无法在这种化学过程中存活。我们说,‘哇,这太棒了!’”
“如果你与100%都是数据科学家和机器学习人员一起工作,他们倾向于认为你所需要的只是一个更大的网络和更多的数据。但我认为,正如在某机构,你需要从客户出发进行逆向思考,你需要解决实际问题,而解决方案并不总是更多的数据和更多的注释。”