一年前,我们写了一篇题为“人工智能正在伤害我们的星球:解决人工智能惊人的能源成本”的博客,以阐明人工智能令人震惊的能源需求,并引入基于大脑的技术,以潜在地缓解这些环境问题。今天,随着 ChatGPT 和大型语言模型 (LLM) 等人工智能应用和技术的突出地位继续飙升,这种讨论的重要性只会升级。
按照目前的轨迹,人工智能只会加速气候危机。相比之下,我们的大脑效率非常高,消耗大约20瓦的功率,大约相当于为灯泡供电所需的功率。如果我们能够将基于神经科学的技术应用于人工智能,那么就有巨大的潜力来大幅减少用于计算的能量,从而减少温室气体排放。鉴于过去一年塑造人工智能格局的进步,这篇博文旨在重新审视原始文章中强调的环境问题,以及基于大脑的技术如何解决人工智能令人难以置信的高能源成本。
为什么人工智能会消耗这么多能量?
首先,值得用简单的术语来理解深度学习模型的工作原理。深度学习模型,如LLM,不像你的大脑那样智能。他们不会以结构化的方式学习信息。与你不同,他们无法与世界互动来学习因果关系、背景或类比。深度学习模型可以被视为“蛮力”统计技术,在大量数据上蓬勃发展。
例如,如果你想训练一个深度学习模型来理解和写一只猫,你就要向它展示数千个与猫相关的文本样本。该模型不了解猫会发出咕噜声,或者比狗更有可能玩羽毛。即使它可以输出文本,说明猫会发出咕噜声,它也不会像孩子那样理解咕噜声,孩子玩过猫和狗,并在一个小时内了解了它们的差异。该模型无法仅通过检查单词和短语如何一起出现来理解世界。为了进行推理,需要对大量数据进行训练,以观察尽可能多的组合。
这些蛮力统计模型的巨大能量需求是由于以下属性:
- 需要数百万或数十亿个训练示例。 在猫的例子中,需要从不同的角度和上下文描述猫的句子。需要不同品种、颜色和阴影的句子。需要关于可能发现猫的不同环境的句子。描述猫的方式有很多种,模型必须根据与涉及猫的数百万个不同概念相关的大量信息进行训练。
- 需要许多训练周期。 训练模型的过程涉及从错误中学习。如果模型错误地预测了一个关于猫的故事以它快乐地享受冷水澡而告终,则模型会重新调整其参数并优化其分类,然后重新训练。它从错误中缓慢学习,这需要在整个数据集中进行多次迭代。
- 在出现新信息时需要重新培训。 如果模型现在需要写关于狗的文章,而它以前从未了解过,它可以使用提示中提供的关于狗的上下文来即兴创作。但是,它可能会产生不准确之处,并且不会保留这些新信息以供将来使用。或者,它可以根据这些新数据进行训练,但代价是忘记了它的先验知识,即关于猫的细节。要写猫和狗,模型需要从一开始就重新训练。它需要将有关狗的品种及其行为的描述添加到训练集中,并从头开始重新训练。模型无法以增量方式学习。
- 需要许多权重和大量乘法。 典型的神经网络有许多由矩阵表示的连接或权重。为了使网络计算输出,它需要通过后续层执行大量矩阵乘法,直到最后出现模式。事实上,计算单个层的输出通常需要数百万步!一个典型的网络可能包含几十到几百个层,这使得计算非常耗能。
人工智能消耗多少能量?
马萨诸塞大学阿默斯特分校的一篇论文指出,“训练一个人工智能模型在其一生中可以排放相当于五辆汽车的碳。然而,此分析仅涉及一次训练运行。当通过反复训练来改进模型时,能量使用将大大增加。许多每天可以训练成千上万个模型的大公司正在认真对待这个问题。Meta 的这篇论文就是一个很好的例子,它正在探索人工智能对环境的影响,研究解决它的方法,并发出行动呼吁。
最新的语言模型包括数十亿甚至数万亿个权重。GPT-4是支持ChatGPT的LLM,拥有1.7万亿个机器学习参数。据说需要25,000个Nvidia A100 GPU,90-100天和100亿美元来训练模型。虽然能源使用情况尚未披露,但据估计,GPT-4 消耗的功率在 51,773 MWh 和 62,319 MWh 之间,是其前身 GPT-40 消耗的 3 多倍。这相当于一个普通美国家庭 5 到 6 年的能源消耗。
据估计,推理成本和功耗至少是训练成本的 10 倍。从这个角度来看,在26月份,ChatGPT每月消耗的[电力大约相当于](towardsdatascience.com/chatgpts-el… ChatGPT's underlying language model,the same amount of energy.)000,<>个美国家庭的推断。随着模型变得越来越大以处理更复杂的任务,对处理模型的服务器的需求呈指数级增长。

自2012年以来,训练这些AI系统所需的计算资源每3.4个月翻一番。一位商业伙伴告诉我们,他们的深度学习模型可以为一个城市提供动力。能源使用的这种升级与许多组织在未来十年实现碳中和的既定目标背道而驰。
我们如何减少人工智能的碳足迹?
我们建议通过从大脑中吸取教训来解决这个具有挑战性的问题。人类大脑是我们拥有的真正智能系统的最好例子,但它运行的能量非常少,基本上与操作灯泡所需的能量相同。与深度学习系统的低效率相比,这种效率是显着的。
大脑是如何如此高效地运作的?我们的研究深深植根于神经科学,提出了使人工智能更有效率的路线图。以下是大脑在不使用太多功率的情况下处理数据的非凡能力背后的几个原因。
1/ 稀疏性
大脑中的信息被编码为稀疏表示,即一长串主要是零,有几个非零值。这种方法不同于计算机中的典型表示,后者通常是密集的。由于稀疏表示具有许多零元素,因此在与其他数字相乘时可以消除这些元素,仅使用非零值。在大脑中,表征非常稀疏:多达98%的数字为零。如果我们能够在具有相似稀疏性的人工系统中表示信息,我们可以消除大量的计算。我们已经证明,在深度学习的推理任务中使用稀疏表示可以将功耗降低 3-100 倍,具体取决于网络、硬件平台和数据类型,而不会降低任何准确性。
深入了解:将稀疏性应用于机器学习
大脑稀疏性有两个关键方面可以转换为 DNN:激活稀疏性和权重稀疏性。稀疏网络可以限制其神经元的活动(激活稀疏性)和连接性(权重稀疏性),这可以显着降低模型的大小和计算复杂性。

2/ 结构化数据
你的大脑通过感官信息流和运动来构建世界的模型。这些模型可以捕获传入数据的3D结构,这样你的大脑就可以理解猫左侧的视图和猫右侧的视图不需要独立学习。这些模型基于我们称之为“参考系”的东西。参考框架支持结构化学习。它们允许我们构建包含各种对象和概念之间关系的模型。我们可以纳入猫可能与树木或羽毛有关系的概念,而不必阅读数百万个猫与树木的实例。与深度学习模型相比,使用参考框架构建模型所需的样本要少得多。只需对猫进行一些示例描述,模型应该能够转置数据以理解猫的替代描述,而无需专门针对这些描述进行训练。这种方法将使训练集的大小减少几个数量级。
近距离观察:使用参考框架进行结构化学习
参考框类似于地图上的网格线或 x,y,z 坐标。你知道的每一个事实都与参考系中的一个位置配对,你的大脑不断地在参考系中移动,以回忆存储在不同位置的事实。这使您可以移动,旋转和更改脑海中的内容。如果有人让你描述一只蓝色卡通猫,你可以很容易地做到。你会立即想象它,基于你对现实生活中猫的样子和蓝色的参考系。你描述蓝鲸或卡通蓝精灵的可能性很小。

3/ 持续学习
你的大脑学习新事物时不会忘记它以前所知道的。当你第一次读到一种动物时,比如郊狼,你的大脑不需要重新学习它所知道的关于哺乳动物的一切。它为郊狼的记忆增加了一个参考系,注意与其他参考系(如狗)的异同,并分享常见的行为和动作,如狩猎。这种小的增量训练只需要很少的功率。
仔细观察:使用活跃树突进行多任务和持续学习
生物神经元有两种树突:远端和近端。只有近端树突在我们今天看到的人工神经元中被建模。我们已经证明,通过将远端树突纳入神经元模型,网络能够在不抹去以前学到的知识的情况下学习新信息,从而避免了重新训练的需要。

4/ 优化的硬件
当今的半导体架构针对深度学习进行了优化,其中网络密集且学习是非结构化的。但是,如果我们想创造更可持续的人工智能,我们需要能够整合上述所有三个属性的硬件:稀疏性、参考系和持续学习。我们已经为稀疏性创建了一些技术。这些技术将稀疏表示映射到密集的计算环境中,并提高推理和训练性能。从长远来看,我们可以想象针对这些基于大脑的原理优化的架构将有可能提供更多的性能改进。
近距离观察:CPU 无与伦比的扩展
基于我们数十年的神经科学研究,我们创建了独特的架构、数据结构和算法,使从 BERT 到 GPT 的所有 LLM 的成本和速度在当今的 CPU 上实现了 10-150 倍的成本和速度提升。能够在 CPU 上运行这些大型模型不仅可以降低成本和能耗,还可以降低公司 IT 基础架构部署的复杂性。

迈向更可持续的未来
继续构建更大、计算量更大的深度学习网络并不是构建智能机器的可持续途径。在Numenta,我们认为需要一种基于大脑的方法来构建高效和可持续的AI。我们必须开发更聪明的人工智能,而不是更努力地工作。
更少的计算、更少的训练样本、更少的训练传递和优化的硬件相结合,可以极大地改善能源使用。如果我们的计算量减少 10 倍,训练样本减少 10 倍,训练通过次数减少 10 倍,硬件效率提高 10 倍,这将使系统整体效率提高 10,000 倍。
在短期内,我们创建了一个人工智能平台,旨在大幅降低CPU推理的能耗。从中期来看,我们正在将这些技术应用于培训,随着我们减少所需的培训通行证数量,我们预计会节省更多的能源。从长远来看,随着硬件的增强,我们看到了数千倍改进的潜力。
从大脑中抽象出来并将大脑的原理应用于当前的深度学习架构,可以推动我们走向可持续的人工智能新范式。如果您想了解更多关于我们在创建节能 AI 方面的工作,请查看下面的博客。
