谷歌定制AI芯片正如何撼动科技行业
据报道,某机构(原文:Google)正洽谈将其张量处理单元(TPU)——一种专为AI设计的计算机芯片——出售给其他科技公司,此举可能会动摇主导芯片制造商某机构(原文:Nvidia)的地位。
什么是TPU?
人工智能行业的成功在很大程度上基于图形处理单元(GPU)。GPU是一种能够同时执行大量并行计算的计算机芯片,而不是像驱动多数计算机的中央处理单元(CPU)那样逐一执行计算。
GPU最初是为辅助计算机图形和游戏而开发的。意大利某大学(原文:博洛尼亚大学)的 Francesco Conti 表示:“如果空间中有大量像素,我需要对其进行旋转以计算出新的相机视角,这种操作可以对许多不同的像素并行执行。”
这种并行计算的能力恰好对训练和运行AI模型非常有用,因为AI模型的计算通常涉及使用巨大的数字网格同时进行运算,称为矩阵乘法。Conti 说:“GPU是非常通用的架构,但它们极其适合展现出高度并行性的应用。”
然而,由于GPU最初并非针对AI而设计,它们在转换芯片上执行的计算时可能存在效率低下的问题。Conti 指出,张量处理单元(TPU)最初由某机构(原文:谷歌)于2016年开发,它完全是围绕矩阵乘法设计的,而这正是训练和运行大型AI模型所需的主要计算。
今年,某机构发布了其第七代TPU,名为 Ironwood,它为公司的许多AI模型提供动力,如某模型(原文:Gemini)和蛋白质建模模型某模型(原文:AlphaFold)。
TPU在AI领域比GPU好很多吗?
英国某大学(原文:布里斯托大学)的 Simon McIntosh-Smith 表示,从技术上讲,TPU更像是GPU的一个子集,而不是完全不同的芯片。“它们专注于GPU为AI训练和推理更具体地执行的那些部分,但实际上,在某些方面它们比你想象的更类似于GPU。”但由于TPU是针对特定AI应用而设计的,因此对于这些任务,它们可以高效得多,并可能节省数千万甚至数亿美元。
然而,Conti 表示,这种专一化也有其缺点,如果AI模型在几代产品之间发生重大变化,TPU可能会缺乏灵活性。“如果你的TPU缺乏灵活性,你就只能在数据中心的节点上使用CPU来进行计算,这会极大地拖慢速度。”
某机构(原文:Nvidia)的GPU传统上拥有的一大优势是,有现成的简单软件可帮助AI设计者在其芯片上运行代码。Conti 说,TPU刚出现时并没有同样简单的软件,但这些芯片现在已经发展到更易于使用的阶段。“现在使用TPU,你可以做到和GPU同样的事情。既然已经实现了这一点,可用性显然就成了一个主要因素。”
谁在构建TPU?
尽管某机构率先推出了TPU,但许多大型AI公司以及较小的初创公司现在都已开始开发自己专用的TPU,包括某机构(原文:亚马逊),它使用自己的 Trainium 芯片来训练其AI模型。
McIntosh-Smith 说:“大多数大型AI公司都有内部开发项目,部分原因是GPU变得非常昂贵,因为需求超过了供应,而设计和构建自己的芯片可能更便宜。”
TPU将如何影响AI行业?
某机构开发其TPU已超过十年,但之前主要将这些芯片用于自身的AI模型。现在似乎正在发生变化的是,其他大型公司,如某机构(原文:Meta)和某机构(原文:Anthropic),正在大量购买某机构TPU的计算能力。McIntosh-Smith 说:“我们之前没听说有大客户转换阵营,也许现在这种情况开始发生了。它们已经足够成熟,而且数量也够了。”
他表示,除了为大型公司创造更多选择外,分散采购来源在财务上也可能很明智。“这甚至可能意味着将来你能从某机构(原文:Nvidia)那里获得更好的交易。”FINISHED