垂直堆叠3D芯片突破AI算力瓶颈

1 阅读6分钟

研究人员创造了一种新型的3D计算机芯片,该芯片将存储和计算元件垂直堆叠,极大地加快了芯片内部的数据移动速度。与传统平面设计不同,这种方法避免了制约当前AI硬件的“交通拥堵”问题。该原型芯片的性能已是同类芯片的数倍,未来版本预计将更进一步。同样重要的是,它完全由美国本土代工厂制造,证明了这项技术已准备好进行实际生产。


完整报道

为测试新型芯片,研究人员使用了一台专用机器(如图片所示)在晶圆上对设计进行自动化电学特性表征。
图片来源:Bella Ciervo, Penn Engineering

来自某大学、某机构、某大学和某理工学院的研究人员与某机构(美国最大的纯本土半导体代工厂)合作,创造了一种新型多层计算机芯片。该团队表示,其架构可能标志着AI硬件领域的重大转变,并增强本土半导体创新能力。

与当今大多数基本上是平面的2D芯片不同,这款原型芯片旨在向上发展。超薄部件像高层建筑中的楼层一样堆叠,垂直布线则像许多快速电梯,能够快速传输大量数据。凭借创纪录数量的垂直连接以及将存储和计算单元紧密放置的紧凑布局,该设计避免了限制平面芯片发展的速度瓶颈。在硬件测试和模拟中,这款3D芯片的性能比2D芯片高出一个数量级。

研究人员之前在学术实验室中制造过实验性3D芯片,但该团队表示,这是第一次在商业代工厂中生产出性能明显提升的芯片。某大学的教授、描述该芯片的新论文的主要研究者表示:“这为芯片生产和创新的新时代打开了大门。像这样的突破是我们实现未来AI系统所需的1000倍硬件性能提升的方式。”

平面芯片为何难以应对现代AI

像ChatGPT和Claude这样的大型AI模型,不断地在存储信息的内存和处理信息的计算单元之间穿梭大量数据。

在传统的2D芯片上,所有组件都位于一个平面上,内存有限且分散,因此数据被迫通过少量长而拥挤的路径传输。计算部件的运行速度远快于数据传输速度,且芯片无法在附近保留足够的内存。结果是频繁的等待。工程师们将这个问题称为“内存墙”,即处理速度超过了芯片为其提供数据的能力。

多年来,芯片制造商通过缩小晶体管(负责处理和存储数据的微小开关)并在每个芯片上封装更多晶体管来对抗“内存墙”。但研究人员表示,这种方法正接近硬性的物理极限,即“微缩墙”。

新设计旨在通过向上构建来突破这两个极限。该论文的资深作者、某大学的助理教授表示:“通过垂直集成内存和计算,我们可以更快地移动更多信息,就像高楼中的电梯群让许多居民可以同时在不同楼层间移动一样。”

该研究的合著者、某大学的助理教授表示:“内存墙和微缩墙形成了一种致命的组合。我们通过紧密集成内存和逻辑,然后以极高的密度向上构建,直接正面解决了这个问题。这就像计算领域的曼哈顿——我们可以在更小的空间内容纳更多东西。”

单片式3D芯片的制造方式

许多早期的3D芯片尝试采用了一种更简单的方法,即堆叠独立的芯片。这可能有所帮助,但层与层之间的连接通常比较粗糙、数量有限,并且可能成为新的瓶颈。

该团队采用了不同的方法。他们不是制造独立的芯片然后再将它们键合在一起,而是在一个连续的流程中,直接将每一层构建在上一层之上。这种方法被称为“单片式”3D集成,其使用的温度足够低,不会损坏已构建好的下层电路。这使得可以更紧密地堆叠层,并在它们之间创建更密集的连接。

研究人员表示,一个关键点是整个过程是在本土商业硅代工厂中完成的。某机构的技术开发运营副总裁表示:“将前沿的学术概念转化为商业晶圆厂可以制造的东西是一个巨大的挑战。这表明,这些先进的架构不仅在实验室中可行,而且可以在本土大规模生产,这正是美国保持在半导体创新前沿所需要的。”

性能提升与AI硬件的未来

在早期的硬件测试中,该原型芯片的性能优于同类2D芯片约四倍。该团队的模拟表明,随着设计通过堆叠更多内存和计算层而变得更高,性能增益会更大。模拟显示,增加层数后,在真实的AI工作负载上,性能可提升多达十二倍,其中包括源自某机构开源模型的负载。

研究人员还强调了更长期的回报。他们表示,这种架构为实现能量延迟积(EDP,一个结合速度和能效的指标)100到1000倍的提升提供了一条实用途径。通过缩短数据传输距离并增加更多的垂直传输路径,该芯片可以在降低每次操作能耗的同时提高吞吐量,这是传统平面设计难以实现的组合。

该团队表示,这项工作的重要性不仅仅在于速度。通过证明单片式3D芯片可以在美国制造,他们认为这为本土硬件创新的新时期提供了一个蓝图,在这个新时期,最先进的芯片可以在美国本土设计和制造。

他们还表示,向垂直、单片式3D集成的转变将需要新一代接受过这些方法培训的工程师,就像20世纪80年代的集成电路热潮是由在美国实验室学习芯片设计和制造的学生推动的一样。通过合作和资助计划,学生和研究人员已经在为推动美国半导体创新向前发展做准备。

某机构的教授表示:“像这样的突破当然关乎性能。但它们也关乎能力。如果我们能制造出先进的3D芯片,我们就能更快地创新、更快地响应,并塑造AI硬件的未来。”

这项研究在某大学、某机构、某大学和某理工学院进行,所有制造工作均在某机构的代工厂完成。资金来自多个机构和项目。FINISHED