无需硬件升级:这种软件方案可大幅降低AI能耗账单

2 阅读5分钟

\n\n文章指出,通过将AI数据处理从传统的批处理模式转向实时流处理,可以在无需升级硬件的情况下显著降低能耗。流处理能平滑计算负载,减少硬件闲置浪费,提供更高效的降本方案。

译自:The software fix that could shrink AI's energy bill without new hardware

作者:Warren Vella

AI 对能源基础设施造成的负载不容小觑。

大多数解决 AI 能源危机的方法都集中在硬件上,例如更高效的芯片、更好的冷却系统和更绿色的数据中心。这些固然重要,但还有一个更快、更便宜且较少受到关注的杠杆——组织处理数据的方式。

将更多工作负载从批处理(batch processing)转向实时数据流(data streaming)是减少 AI 能源足迹最易实现且最及时的途径之一。主要区别在于负载曲线。批处理会产生剧烈的需求峰值,要求基础设施必须按峰值负载进行配置。流处理则平滑了这一曲线,使计算在时间上分布得更加均匀。

“批处理会产生剧烈的需求峰值,要求基础设施必须按峰值负载进行配置。流处理则平滑了这一曲线,使计算在时间上分布得更加均匀。”

这对能源消耗的影响是显著的,并且解决了一个重要问题。去年电价上涨了 6.9%,而根据高盛的数据,到本世纪末,数据中心将占据电力需求增长的 40%。与此同时,超大规模云服务商正在大规模签署长期购电协议,多个地区的电网运营商已经指出容量担忧

为什么批处理值得更多审查

批处理仍然是数据分析中最常见的方法,可以追溯到大型机时代。在批处理负载中,数据随时间积累,暂存在存储中,然后进行大规模的定期调度运行。

由于这些批处理作业以集中爆发的形式运行,运营商必须按峰值负载配置基础设施,这意味着在运行间隔期间,容量处于闲置状态,消耗能源却不做任何有用功。当批处理作业启动时,CPU 和内存需求激增,给冷却系统带来压力,并在相对较短的时间窗口内大量消耗电力。然后循环往复。

从能源的角度来看,这就像是从静止状态猛踩油门,而不是保持稳定的巡航速度。在计算资源匮乏、数据量适中的年代,这种方法是有意义的,但当 AI 系统需要同时兼顾速度和规模时,它就变得不再实用了。

一种更高效的架构

Apache Kafka 和 Apache Flink 等流技术已经广泛应用于金融服务、零售和电信等具有实时数据需求的行业。但流处理的操作案例现在已经从延迟扩展到了总拥有成本和可持续性。

由于数据在到达时逐个事件地进行持续处理,数据流将资源配置文件从波动的、不可预测的状态转变为稳定的、可管理的状态。计算负载随时间分布,这意味着峰值需求更低,资源配置可以更加精确。

系统不再需要根据最坏情况下的爆发容量来确定规模;它们可以根据实际吞吐量进行动态扩展。这减少了作为备用运行的闲置计算,而闲置计算是能源浪费的主要来源之一。

“系统不再需要根据最坏情况下的爆发容量来确定规模;它们可以根据实际吞吐量进行动态扩展。”

下游还有进一步的效率提升。流架构通常在数据进入存储之前,在传输过程中对其进行清理和去重。这意味着数据仓库中的冗余数据更少,运行在其中的查询也更精简。因此,数据处理中另一个高能效操作——磁盘 I/O 也得以减少。

转向解耦的事件驱动架构还意味着单个系统可以独立处理数据,而不会在紧密集成的管道中引发级联计算负载。

从何处开始

并非每个工作负载都需要立即转向流处理。一个强有力的初始候选对象是 AI 工作负载的预处理——使用流处理器在数据到达 AI 模型之前对其进行过滤、聚合和归一化。这会产生精简、策化的输入,而不是原始日志或宽表,从而减少内存、CPU 和 GPU 的负载。

流架构还可以提高 AI 性能,因为智能体(agent)通常需要持续访问当前数据。定期刷新的静态数据集会导致上下文过时或需要重新处理。批处理最终可能比模型本身更容易成为瓶颈。

把握短期收益

将数据管道从批处理迁移到流处理通常发生在软件层,因此不需要等待新的电力或冷却基础设施。它不会完全消除 AI 的能源问题,但它提供了一种快速、低投资的方法,可以衡量地减少不必要的消耗。

随着 AI 工作负载的持续增长,来自监管机构、客户以及建设数据中心的社区要求成为负责任的能源管家的压力只会越来越大。硬件改进已经在进行中。关于软件的讨论早已该开始了。端 工智能