从通用硬件到专用计算
过去几十年间,通过基于近乎相同的商用服务器的横向扩展架构,计算能力实现了民主化。这种统一性允许灵活的工作负载放置和高效的资源利用。但生成式AI严重依赖对海量数据集的可预测数学运算,正在逆转这一趋势。
目前正出现向专用硬件(包括ASIC、GPU和张量处理单元TPU)的决定性转变,这些硬件相比通用CPU在每美元和每瓦特性能上带来数量级提升。这种针对特定领域优化的计算单元激增,对推动AI持续快速发展至关重要。
超越以太网:专用互联的崛起
这些专用系统通常需要"全对全"通信,具备太比特每秒带宽和接近本地内存速度的纳秒级延迟。当前主要基于商用以太网交换机和TCP/IP协议的网络难以满足这些极端需求。
因此,为了在大型专用加速器集群上扩展生成式AI工作负载,出现了专用互联技术(如TPU的ICI和GPU的NVLink)。这些专用网络优先考虑直接内存到内存传输,并使用专用硬件加速处理器间的信息共享,有效绕过了传统分层网络栈的开销。
这种向紧密集成、以计算为中心的网络转变,对于克服通信瓶颈和高效扩展下一代AI至关重要。
突破内存墙
几十年来,计算性能的增长速度一直超过内存带宽的增长。虽然缓存和堆叠SRAM等技术部分缓解了这个问题,但AI的数据密集型特性正在加剧这一矛盾。
满足日益强大的计算单元需求导致了高带宽内存(HBM)的出现,它将DRAM直接堆叠在处理器封装上以提高带宽和降低延迟。然而,即使HBM也面临基本限制:物理芯片周边限制了总数据流,以太比特速度移动海量数据集会产生巨大的能源限制。
这些限制凸显了对更高带宽连接的迫切需求,并强调了在处理和内存架构方面取得突破的紧迫性。没有这些创新,强大的计算资源将因等待数据而闲置,极大地限制效率和规模。
从服务器农场到高密度系统
当今先进的机器学习模型通常依赖在数万至数十万个相同计算元素上精心编排的计算,消耗巨大功率。这种微秒级的紧密耦合和细粒度同步提出了新的要求。
与接受异构性的系统不同,ML计算需要同构元素;混合不同代际的单元会使更快单元产生瓶颈。通信路径也必须预先规划且高度高效,因为单个元素的延迟可能停滞整个进程。
这些对协调和功率的极端需求正在推动对前所未有计算密度的需求。最小化处理器之间的物理距离对于降低延迟和功耗变得至关重要,为新型超密集AI系统铺平道路。
这种对极致密度和紧密协调计算的追求从根本上改变了基础设施的最佳设计,需要重新思考物理布局和动态电源管理,以防止性能瓶颈并最大化效率。
容错新方法
传统的容错依赖于松散连接系统间的冗余来实现高正常运行时间。ML计算需要不同的方法。
首先,计算的庞大规模使得过度配置成本过高。其次,模型训练是一个紧密同步的过程,单个故障可能级联到数千个处理器。最后,先进的ML硬件通常推向当前技术的边界,可能导致更高的故障率。
新兴策略涉及频繁检查点(保存计算状态),结合实时监控、快速分配备用资源和快速重启。底层硬件和网络设计必须能够实现快速故障检测和无缝组件更换以保持性能。
更可持续的能源方法
当前和未来,电力供应是扩展AI计算的关键瓶颈。虽然传统系统设计专注于每芯片的最大性能,但我们必须转向专注于每瓦特大规模交付性能的端到端设计。
这种方法至关重要,因为它考虑了所有系统组件——计算、网络、内存、电力输送、冷却和容错——无缝协作以维持性能。单独优化组件会严重限制整体系统效率。
随着我们追求更高性能,单个芯片需要更多功率,通常超过传统风冷数据中心的冷却能力。这需要转向更节能、最终更高效的液体冷却解决方案,并重新设计数据中心冷却基础设施。
除了冷却,传统的冗余电源(如双公用事业馈电和柴油发电机)会产生巨大的财务成本并减缓容量交付。相反,我们必须结合多种电源和存储于多吉瓦规模,由实时微电网控制器管理。通过利用AI工作负载灵活性和地理分布,我们可以在不需要昂贵备份系统的情况下提供更多能力,这些系统每年只需使用几个小时。
这种发展的电力模型能够实时响应电力可用性——从在短缺期间关闭计算到对可以容忍性能降低的工作负载采用频率缩放等先进技术。所有这些都需要当前无法提供的实时遥测和驱动水平。
安全与隐私:内建而非外挂
互联网时代的一个重要教训是,安全和隐私不能有效地附加到现有架构上。恶意行为者的威胁只会变得更加复杂,需要将用户数据和专有知识产权的保护构建到ML基础设施的结构中。
一个重要观察是,AI最终将增强攻击者的能力。这反过来意味着我们必须确保AI同时增强我们的防御能力。
这包括端到端数据加密、具有可验证访问日志的强大数据溯源跟踪、硬件强化的安全边界以保护敏感计算以及复杂的密钥管理系统。从基础开始集成这些保护措施对于保护用户和维护他们的信任至关重要。
实时监控可能达到每秒数Pb的遥测和日志记录,将是识别和消除大海捞针式攻击载体的关键,包括来自内部威胁的载体。
速度作为战略要务
硬件升级的节奏已经发生巨大变化。与传统基础设施逐个机架的渐进演变不同,部署ML超级计算机需要根本不同的方法。
这是因为ML计算不容易在异构部署上运行;计算代码、算法和编译器必须专门针对每个新硬件世代进行调整以充分利用其能力。创新速度也是前所未有的,新硬件通常每年提供两倍或更多的性能提升。
因此,现在需要大规模同时部署同构硬件,通常跨越整个数据中心,而不是渐进升级。随着年度硬件更新提供整数倍的性能改进,快速建立这些巨大AI引擎的能力至关重要。
目标必须是从设计到完全运营10万以上芯片部署压缩时间表,实现效率改进同时支持算法突破。这需要每个阶段的根本加速和自动化,要求对这些基础设施采用类似制造的模式。从架构到监控和修复,每个步骤都必须简化和自动化,以在前所未有的规模上利用每个硬件世代。
应对时刻:下一代AI基础设施的集体努力
生成式AI的崛起不仅仅是一次进化,更是一场需要彻底重新构想我们计算基础设施的革命。前面的挑战——在专用硬件、互联网络和可持续运营方面——是重大的,但它将实现的AI变革潜力也同样重大。
很容易看出,我们最终的计算基础设施在几年后将变得无法识别,这意味着我们不能简单地改进已经设计的蓝图。相反,我们必须从研究到产业集体努力,从第一性原理重新审视AI计算的要求,为底层全球基础设施构建新蓝图。这反过来将在从医学到教育再到商业的各个领域带来根本性的新能力,达到前所未有的规模和效率。