摘要
在数据中心领域,如何高效训练庞大的AI模型归结为两个词:纵向扩展(向上扩展)和横向扩展(向外扩展)。纵向扩展意味着在每个AI计算机中尽可能多地集成GPU,并紧密连接使它们像一个巨型GPU一样工作。横向扩展则是将更多的AI计算机连接起来共同处理大问题。两者都面临一个核心挑战:连接。
铜缆的物理极限
传统上,服务器内部GPU等组件的高速互联依赖于铜缆。然而,随着数据传输速率提升到每秒数百Gb,铜缆的物理特性成为瓶颈。高数据速率加剧了趋肤效应和介质损耗,信号衰减严重。为了补偿损耗、维持信号完整性,就需要更粗的线缆、更强大的发射器,导致功耗和发热量急剧增加。这在追求高密度、高能效的数据中心环境中变得难以管理。
无线电缆的解决方案
两家初创公司提出了基于无线电的替代方案:无线电缆(Radio cables)。它们本质上是在柔性波导中传输毫米波或太赫兹频段的无线电信号。
- 更长距离,更低功耗:无线电缆的信号衰减远低于同速率的铜缆,因此传输距离可以更长(例如,在224 Gbps速率下,铜缆可能只能传输0.5米,而无线电缆能轻松达到2米以上),同时所需的发射功率更低,有助于降低整体能耗。
- 线缆更窄,布线更易:由于射频信号可以在更细的波导中传输,这类线缆的直径比同等性能的铜缆更小,能节省宝贵的数据中心空间,并简化高密度布线。
- 成本与复杂度低于光纤:相较于另一种高速替代方案——光纤,无线电缆不需要昂贵的光电转换模块(光模块),其射频收发器可以更便宜,并且有望更直接地与GPU等芯片集成。
集成与未来展望
这两家公司的长远目标是将射频收发功能直接集成到GPU或AI加速器的封装内部,通过板上或封装内的天线将信号耦合到无线电缆中。这种深度集成将进一步减少能量损失,简化系统设计,并显著缓解由高功耗铜缆互联带来的散热压力。这对于构建更大规模、更高效的AI计算集群至关重要。