AI和效率

89 阅读14分钟

AI and Efficiency

我们发布的一项分析显示,自2012年以来,训练一个神经网络达到ImageNet 分类的相同性能所需的计算量每16个月就会减少2倍。与2012年相比,现在训练一个神经网络达到AlexNet 的水平所需的计算量减少了44倍(相比之下,摩尔定律 ,在此期间的成本会提高11倍)。我们的结果表明,对于近期投资水平较高的人工智能任务,算法的进步比经典的硬件效率带来了更多的收益。

阅读论文<!--算法效率SOTAs-->。

算法改进是推动人工智能进步的一个关键因素。寻找能够阐明整体算法进步的措施是很重要的,尽管这比测量计算方面的这种趋势更难。

7年后达到AlexNet性能所需的计算量减少44倍

训练到AlexNet水平性能所使用的计算总量,以太坊/天为单位。任何特定时间的最低计算量以蓝色显示,所有测量点以灰色显示。

下载图表

衡量效率

算法效率可以定义为减少训练一个特定能力所需的计算量。效率是我们衡量经典计算机科学问题(如排序)的算法进展的主要方式。与ML相比,传统问题(如排序)的效率提升更容易衡量,因为它们对任务难度有更清晰的衡量。[1]然而,我们可以通过保持性能不变来将效率透镜应用于机器学习。效率趋势可以在不同领域进行比较,如DNA测序 (10个月翻倍),太阳能 (6年翻倍),以及晶体管密度 (2年翻倍)。

在我们的分析中,我们主要利用开源的再实现 ,以衡量AlexNet水平在长期内的性能进展。在ImageNet上,我们看到ResNet-50级别的性能有类似的训练效率提高率(17个月的翻倍时间)。 在翻译、围棋和Dota 2中,我们看到在较短的时间范围内有更快的改进率。

  1. 在翻译领域,Transformer 在3年后的WMT'14上,以61倍的训练计算量超过了seq2seq 的英法翻译性能。
  2. 我们估计AlphaZero 在1年后达到AlphaGoZero 水平的性能时,计算量减少了8倍。
  3. OpenAI Five Rerun需要的训练计算量减少了5倍,才能在3个月后超过OpenAI Five (它击败了世界冠军OG)。

认为2012年的计算量不等于2019年的计算量可能是有帮助的,就像美元需要随着时间的推移进行通胀调整一样。一个固定的计算量在2019年可能比2012年完成更多。思考这个问题的一种方式是,某些类型的人工智能研究的进展分为两个阶段,类似于半导体中的 "滴答 "发展模式;新的能力("滴答")通常需要大量的计算支出来获得,然后这些能力的改进版本("滴答")由于流程的改进而变得更有效地部署。

算法效率的提高使研究人员能够在一定的时间和金钱内做更多感兴趣的实验。除了作为整体进展的衡量标准外,算法效率的提高在某种程度上类似于拥有更多的计算能力,从而加速了未来的人工智能研究。

其他衡量人工智能进展的标准

除了效率之外,许多其他的衡量标准也揭示了人工智能的整体算法进展。以美元计算的训练成本 ,但对算法进展的关注不那么狭隘,因为它也受到底层硬件、硬件利用率和云基础设施的改善的影响。当我们处于低数据制度时,样本效率是关键,许多感兴趣的任务都是这样的情况。更快地训练模型的能力 ,也加快了研究的速度,可以被认为是衡量感兴趣的学习能力的可并行性 。我们还发现在GPU时间 、参数 和flops方面推理效率的提高是有意义的,但主要是由于其经济意义[2],而不是对未来研究进展的影响。Shufflenet 在5年内实现了AlexNet级别的性能,推理效率提高了18倍(15个月的翻倍时间),这表明训练效率和推理效率可能以类似的速度提高。创建数据集/环境/基准是一种强大的方法,可以使人们感兴趣的特定人工智能能力更加可衡量。

主要限制

  1. 我们只有少数几个任务的算法效率数据点。目前还不清楚我们观察到的效率趋势在多大程度上可以推广到其他AI任务。系统的测量可以明确人工智能领域中是否存在与摩尔定律[3]相当的算法,如果存在,则要明确其性质。我们认为这是一个非常有趣的开放性问题。我们怀疑我们更有可能在类似的任务上观察到类似的效率进步率。所谓类似的任务,我们指的是在人工智能的这些子领域内的任务,在这些任务上,该领域同意我们已经看到了实质性的进展,并且有可比的投资水平(计算和/或研究者时间)。
  2. 尽管我们相信AlexNet代表了很多的进步,但这个分析并不试图量化这种进步。更为普遍的是,在一项能力首次创建时,算法上的突破可能已经将所需的资源从完全不可行[4]降低到仅仅是很高。我们认为新的能力通常代表了整体概念进步的更大份额,而不是这里所显示的那种效率的提高。
  3. 这个分析的重点是一个优化模型的最终训练运行成本,而不是总的开发成本。一些算法上的改进使得训练一个模型更加容易,因为它使得能够稳定训练并获得良好最终性能的超参数空间变得更大。另一方面,架构搜索增加了最终训练运行成本和总训练成本之间的差距。
  4. 我们不推测[5]我们预期效率趋势会在多大程度上推断,我们只是提出我们的结果,并讨论如果趋势持续下去的影响。

测量和人工智能政策

我们认为 ,与人工智能相关的政策制定将通过更加关注对人工智能系统的测量和评估而得到改善,包括在技术属性和社会影响方面。我们认为这样的测量举措可以阐明政策中的重要问题;我们的人工智能和计算 分析表明,政策制定者应该增加对学术界计算资源的资助,以便学术研究能够复制、再现和扩展工业研究。这一效率分析表明,政策制定者可以通过更密切地评估人工智能系统的效率改进速度,对部署人工智能能力的成本以及这些成本将如何随时间变化形成准确的直觉。

追踪未来的效率

如果大规模的计算对于在语言和游戏等领域实现最先进(SOTA)的整体性能仍然很重要,那么重要的是要努力衡量在较小的计算量(通常由学术机构做出的贡献)下取得的明显进展。在有意义的能力上达到训练效率状态的模型是有希望扩大规模并有可能实现整体顶级性能的候选者。此外,弄清算法效率的提高是很直接的[6],因为它们只是所有实验产生的学习曲线中特别有意义的一个片断。

我们还认为,测量效率SOTA的长期运行趋势将有助于描绘整体算法进展的量化图景。我们观察到,硬件和算法的效率提升是相乘的,并且在有意义的范围内可以达到相似的规模,这表明一个好的人工智能进展模型应该整合两者的措施。

我们的结果表明,对于投资水平高的人工智能任务(研究人员的时间和/或计算),算法效率可能超过硬件效率的收益(摩尔定律)。摩尔定律是在1965年提出的,当时集成电路只有64个晶体管(6倍),并天真地将其推断出来,预测个人电脑和智能手机(一个iPhone11有85亿个晶体管)。如果我们观察到人工智能的算法效率有几十年的指数级提高,它可能会导致什么?我们并不确定。这些结果让我们提出这个问题,对我们来说是一个适度的更新,走向一个拥有强大人工智能服务和技术的未来。

由于所有这些原因,我们将开始公开跟踪效率SOTA。我们将从视觉和翻译效率基准(ImageNet[7]和WMT14)开始,我们将考虑随着时间的推移增加更多的基准。我们相信在这些基准上还有我们不知道的效率SOTAs,并鼓励研究界在这里提交这些SOTAs(我们会对原作者和合作者给予表彰)。

行业领袖、政策制定者、经济学家和潜在的研究人员都在试图更好地了解人工智能的进展,并决定他们应该投入多少注意力以及将其引向何处。衡量工作可以帮助这种决策的基础。如果你对这种类型的工作感兴趣,可以考虑申请在OpenAI的前瞻或政策团队工作

算法效率SOTA

在GitHub上提交


鸣谢

我们要感谢以下人士对本篇文章的有益对话和/或反馈。Dario Amodei, Jack Clark, Alec Radford, Paul Christiano, Sam McCandlish, Ilya Sutskever, Jacob Steinhardt, Jared Kaplan, Amanda Askell, John Schulman, Jacob Hilton, Asya Bergal, Katja Grace, Ryan Carey, Nicholas Joseph, Geoffrey Irving, Jeff Clune, 和 Ashley Pilipiszyn。

感谢Justin Jay Wang的设计。

感谢Niki Parmar提供的原始变压器学习曲线的相关要点。

同时感谢Mingxing Tan提供了EfficientNet学习曲线的相关数据,并在减少预热的情况下进行了实验。


参考文献

  1. Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-Fei, L. (2009). "ImageNet:一个大规模的分层图像数据库。" 在CVPR09。
  2. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). "Imagenet classification with deep convolutional neural networks." In F. Pereira, C. J. C. Burges, L. Bottou, & K. Q. Weinberger (Eds.), Advances in Neural Information Processing Systems 25 (pp. 1097-1105).Curran Associates, Inc.
  3. Moore, G. E. (1965). "Cramming more components onto integrated circuits." Electronics 38(8).
  4. Amodei, D. & Hernandez, D. (2018). "AI和计算。"
  5. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., & Rabinovich, A. (2014). "Going deeper with convolutions. "
  6. Simonyan, K. & Zisserman, A. (2014). "用于大规模图像识别的极深卷积网络。"
  7. He, K., Zhang, X., Ren, S., & Sun, J. (2015). "用于图像识别的深度剩余学习。 "
  8. Iandola, F. N., Han, S., Moskewicz, M. W., Ashraf, K., Dally, W. J., & Keutzer, K. (2016). "Squeezenet: Alexnet-level accuracy with 50x fewer parameters and <0.5MB model size."
  9. Zagoruyko, S. & Komodakis, N. (2016). "Wide residual networks."
  10. Xie, S., Girshick, R., Dollár, P., Tu, Z., & He, K. (2016). "Aggregated residual transforma- tions for deep neural networks."
  11. Huang,G.,Liu,Z.,vanderMaaten,L.,&Weinberger,K.Q.(2016). "密集连接的卷积网络。"
  12. Howard, A. G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., An- dreetto, M., & Adam, H. (2017). "Mobilenets:用于移动视觉应用的高效卷积神经网络。"
  13. Zhang, X., Zhou, X., Lin, M., & Sun, J. (2017). "Shufflenet: an extremely efficient convolutional neural network for mobile devices."
  14. Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., & Chen, L.-C. (2018). "Mobilenetv2:倒置的残差和线性瓶颈。"
  15. Ma, N., Zhang, X., Zheng, H.-T., & Sun, J. (2018). "高效cnn架构设计的实用指南。"
  16. Tan, M. & Le, Q. V. (2019). "Efficientnet:重新思考卷积神经网络的模型缩放。"
  17. Sawyer, Eric (2011). "高通量测序和成本趋势。"
  18. Roberts, David (2019). "实现100%的可再生能源需要廉价的能源储存。但有多便宜呢?"。
  19. Paszke, A., Gross, S., Chintala, S., Chanan, G., Yang, E., DeVito, Z., Lin, Z., Desmai- son, A., Antiga, L., & Lerer, A. (2017). "PyTorch的自动区分。在NIPS Autodiff研讨会上。"
  20. Huang, J. (2017). "Shufflenet in pytorch."
  21. Xiao, H. (2017). "Pytorch mobilenet的实现 "mobilenets。用于移动视觉应用的高效卷积神经网络"。"
  22. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). "Attention is all you need.CoRR,abs/1706.03762。"
  23. Sutskever, I., Vinyals, O., & Le, Q. V. (2014). "Sequence to sequence learning with neural networks.CoRR,abs/1409.3215。"
  24. Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., Lanctot, M., Sifre, L., Kumaran, D., Graepel, T., Lillicrap, T., Simonyan, K., & Hassabis, D. (2018). "一种通用强化学习算法,通过自我游戏掌握国际象棋、围棋。科学》,362(6419),1140-1144。"
  25. Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., Hubert, T., Baker, L., Lai, M., Bolton, A., Chen, Y., Lillicrap, T. 。Hui, F., Sifre, L., van den Driessche, G., Graepel, T., & Hassabis, D. (2017). "掌握没有人类知识的围棋。自然》,550,354-。"
  26. OpenAI等:,Berner, C., Brockman, G., Chan, B., Cheung, V., Dębiak, P., Dennison, C., Farhi, D., Fischer, Q., Hashme, S., Hesse, C., Józefowicz, R., Gray, S., Olsson, C., Pachocki, J., Petrov, M,de Oliveira Pinto, H. P., Raiman, J., Salimans, T., Schlatter, J., Schneider, J., Sidor, S., Sutskever, I., Tang, J., Wolski, F., & Zhang, S. (2019). "Dota 2 with Large Scale Deep Reinforcement Learning."
  27. Cody A. Coleman, Deepak Narayanan, Daniel Kang, Tian Zhao, Jian Zhang, Luigi Nardi, Peter Bailis, Kunle Olukotun, Chris Ré, and Matei Zaharia (2017). "高通量测序和成本趋势。"
  28. Paszke, A., Gross, S., Chintala, S., Chanan, G., Yang, E., DeVito, Z., Lin, Z., Desmai- son, A., Antiga, L., & Lerer, A. (2017)。 "DAWNBench。一个端到端的深度学习基准和竞争。nips ml systems workshop, 2017."
  29. Raymond Perrault, Yoav Shoham, E. B. J. C. J. E. B. G. T. L. J. M. S. M. & Niebles, J. C. (2019). "The AI Index 2019 Annual Report".技术报告,AI指数指导委员会,以人为本的AI研究所,斯坦福大学,斯坦福,加利福尼亚。"
  30. McCandlish, S., Kaplan, J., Amodei, D., & Team, O. D. (2018). "大批量训练的经验模型"。"
  31. van den Oord, A., Li, Y., Babuschkin, I., Simonyan, K., Vinyals, O., Kavukcuoglu, K., van den Driessche, G., Lockhart, E., Cobo, L. C., Stimberg, F., Casagrande, N., Grewe, D., Noury, S. 。Dieleman, S., Elsen, E., Kalchbrenner, N., Zen, H., Graves, A., King, H., Walters, T., Belov, D., & Hassabis, D. (2017). "Parallel wavenet: Fast high-fidelity speech synthesis."
  32. 杰克-克拉克(2019年)。"OpenAI的政策总监杰克-克拉克的书面证词。关于 "人工智能的听证会。社会和伦理影响 "的听证会,在众议院科学、空间和技术委员会举行。"

脚注


  1. 在排序的例子中,问题的 "难度 "是列表的长度。常用算法quicksort的成本用大O符号表示:O(nlogn)O(nlog{}n)

  2. 对于成功部署的系统,推理成本在总成本中占主导地位。推理成本随着系统的使用而增加,而训练成本只需要支付一次。

  3. 在这篇文章中,我们把摩尔定律称为一致的、长期观察到的美元/浮点的两年翻倍时间。人们也可以将摩尔定律解释为美元/浮点的趋势,但最近已经放缓。

  4. 例如,算法的进步可以将某些任务的复杂程度从指数级变为多项式成本。这种对感兴趣的能力的效率提升是难以直接观察到的,尽管它们可能通过渐进分析或推断出经验性的缩放规律来观察。

  5. 对这类问题做出可信的预测是一项实质性的工作,我们宁可在这里回避,也不给予不充分的处理。

  6. 事实上,这项工作主要是通过训练PyTorch的例子模型来完成的,并进行了调整以改善早期学习。

  7. ImageNet是视觉基准所允许的唯一训练数据源。不允许有人类说明、其他图像或其他数据。自动增强是可以的。