AI数据中心的需求已超出铜缆的承载能力
无线电和太赫兹链路可能提供更好、更快且更便宜的连接方案。
在数据中心术语中,横向扩展涉及连接更多计算机,而纵向扩展则意味着在每台计算机中塞入更多GPU,这两者都对铜缆的物理极限构成了挑战。
铜缆在高数据速率下会遇到一个现象,该现象需要更宽的线缆和更多功耗,这使数据中心内部密集的连接变得复杂。Point2和AttoTude两家公司提出了基于无线电的电缆方案,声称其比铜缆传输距离更远、功耗更低、线缆更窄,同时避免了光学的成本和复杂性。这些初创公司旨在将无线电电缆直接集成到GPU上,从而缓解冷却需求并提高数据中心的效率。
“铜墙峭壁”的挑战
训练巨型新AI模型的速度可以归结为两个词:纵向扩展和横向扩展。
- 横向扩展意味着增加你可以连接在一起的AI计算机数量,以分块处理大型问题。
- 纵向扩展则意味着在每个这样的计算机中尽可能多地塞入GPU,将它们连接起来,使其像一个巨型GPU一样工作,从而更快地处理问题的更大块。
这两个领域依赖两种不同的物理连接。横向扩展主要依赖光子芯片和光纤,它们可以将数据传输数百或数千米。而纵向扩展的网络密度大约是横向扩展的10倍,目前是更简单、成本更低的技术——通常是长度不超过一两米的铜缆——的天下。
但是,为了实现更强大的计算机,GPU之间所需的数据传输速率越来越高,这正触及铜缆的物理极限。某数据中心互联初创公司Point2的产品营销和业务发展副总裁David Kuo指出,随着铜缆的带宽需求接近每秒太比特(Tb/s)领域,物理定律要求它们必须做得更短、更粗。鉴于当今计算机机架内部的拥塞情况,以及领先的AI硬件公司计划在2027年前将每个系统的最大GPU数量从72个提高到576个,这是一个大问题。
“我们称之为‘铜墙峭壁’,”Kuo说。
无线电波导:一种折中方案
业界正在研究通过延长铜缆的传输距离以及将纤薄、传输距离更长的光纤更靠近GPU本身来疏通数据中心的方法。但Point2和另一家初创公司AttoTude主张一种介于两种技术之间却又完全不同的解决方案。他们声称该技术将提供铜缆的低成本和可靠性,以及光纤的部分纤薄和距离优势,这种组合足以满足未来AI系统的需求。
他们的答案是什么?无线电。
今年晚些时候,Point2将开始制造支持1.6 Tb/s电缆的芯片。该电缆由八根细长的聚合物波导组成,每根波导使用90 GHz和225 GHz两种频率,能够承载448 Gb/s的数据。波导两端是插入式模块,用于将电子比特转换为调制的无线电波,然后再转换回来。AttoTude也计划推出本质上相同的东西,但工作在太赫兹频率,并使用一种不同类型的纤细、柔性电缆。
两家公司都表示,它们的技术在传输距离上可以轻松超越铜缆——能够跨越10到20米而信号无明显衰减,这足以应对某领先硬件公司已公布的纵向扩展计划。以Point2为例,其系统功耗仅为光学方案的三分之一,成本也是三分之一,并且延迟可低至光学方案的千分之一。
铜缆的局限
那么,铜缆有什么问题吗?只要数据速率不太高、传输距离不太远,铜缆就没什么问题。但在高数据速率下,铜等导体会受到所谓的趋肤效应的影响。
趋肤效应的发生是因为信号的快速变化电流会产生一个试图抵消电流的变化磁场。这种抵消力集中在导线中心,因此大部分电流被限制在导线外边缘(即“趋肤”)流动,从而增加了电阻。在许多国家的电网频率60赫兹时,大部分电流在铜线的外8毫米处流动。但在10 GHz时,趋肤深度仅为0.65微米。因此,要通过铜线推动高频数据,导线需要更宽,并且需要更多功率。这两项要求都与在更小空间内塞入越来越多的连接以实现计算纵向扩展的目标相悖。
为了抵消趋肤效应和其他导致信号劣化的问题,各公司开发了在两端带有专用电子器件的铜缆。其中最有前景的一种称为有源电气电缆(AEC)。AEC末端的芯片称为重定时器。该集成电路在数据信号和时钟信号从处理器到达时对其进行清理,然后通过铜缆上典型的八对导线(或称通道)重新发送它们(还有另一组用于相反方向的传输)。在另一端,芯片的孪生兄弟负责处理在传输过程中累积的任何噪声或时钟问题,并将数据发送给接收处理器。因此,以电子复杂性和功耗为代价,AEC可以延长铜缆的有效传输距离。
太赫兹无线电的潜力
AttoTude脱胎于其创始人兼CEO Dave Welch对光子学的深入研究。Welch深知该技术的弱点:功耗过高(根据某公司的数据,约占数据中心计算预算的10%);对温度极其敏感;将光导入和导出光子芯片需要微米级的制造精度;并且该技术的长期可靠性差是出了名的(甚至有个术语:“链路抖动”)。
“客户喜欢光纤。但他们讨厌的是光子学,”Welch说。“电子学已被证明本质上比光学更可靠。”
离开某大型通信设备制造商后,Welch在构思他的下一个初创公司时问了自己一些基本问题,首先是:“如果我不必工作在某光波长,我应该工作在哪里?”答案是:纯粹通过电子学可以达到的最高频率——太赫兹频段,即300至3,000 GHz。
Welch预测这种波导能够将数据传输到20米远。“这个距离恰好是数据纵向扩展的理想距离,”他说。
数据中心内的无线电传输距离
Point2致力于将无线电技术引入数据中心的时间比AttoTude更长。该公司的电缆称为e-Tube,每端由一个将输入数字数据转换为调制毫米波频率的硅芯片和一个向波导辐射信号的天线组成。波导本身是一个带有金属包层的塑料芯,全部包裹在金属屏蔽层内。一根1.6 Tb/s的电缆,称为有源无线电电缆,由八根e-Tube芯组成。该电缆直径为8.1毫米,体积仅为可比AEC电缆的一半。
Point2表示,在射频频率下工作的一个好处是,处理它们的芯片可以在标准硅代工厂制造。某研究所报道,他们使用了自2010年以来就不再是尖端的28纳米CMOS技术。
纵向扩展网络市场
尽管他们的技术听起来很有前景,但Point2和AttoTude必须克服数据中心行业长期依赖铜缆的历史。“你从无源铜缆开始,”某公司高管说,“然后尽你所能,尽可能长时间地使用无源铜缆。”
他表示,数据中心计算中液体冷却的蓬勃发展就是证明。“人们转向液体冷却的全部原因是为了保持使用无源铜缆进行纵向扩展。”为了用无源铜缆在纵向扩展网络中连接更多GPU,它们必须以过高的密度封装在一起,以至于仅靠空气冷却无法处理。Kuo建议,通过毫米波有源无线电电缆连接更分散的一组GPU来实现相同程度的纵向扩展,将减轻对冷却的需求。
与此同时,两家初创公司也在追逐直接连接到GPU的技术版本。某公司和另一家芯片制造商最近部署了与处理器共封装的 光收发器,将电子器件和光学器件的距离从厘米或米缩短到微米。目前,该技术仅限于连接到横向扩展网络的网络交换芯片。但大型公司和初创公司都在试图将其应用范围一直扩展到GPU。
Welch和Kuo都表示,他们公司的技术在这种收发器-处理器共封装方案中可能比光学技术具有巨大优势。由于毫米波和太赫兹信号的波长要长得多,因此连接波导时不需要那么高的精度。
可插拔连接将是该技术的首次应用,但与处理器共封装的无线电收发器才是“真正的目标”,Welch说。