谷歌自研AI芯片TPU技术解析本文深入分析了谷歌定制AI芯片TPU的技术原理，对比了其与GPU在并行计算、矩阵乘法上的差

谷歌定制AI芯片正如何撼动科技行业

据报道，某机构（原文：Google）正洽谈将其张量处理单元（TPU）——一种专为AI设计的计算机芯片——出售给其他科技公司，此举可能会动摇主导芯片制造商某机构（原文：Nvidia）的地位。

什么是TPU？

人工智能行业的成功在很大程度上基于图形处理单元（GPU）。GPU是一种能够同时执行大量并行计算的计算机芯片，而不是像驱动多数计算机的中央处理单元（CPU）那样逐一执行计算。

GPU最初是为辅助计算机图形和游戏而开发的。意大利某大学（原文：博洛尼亚大学）的 Francesco Conti 表示：“如果空间中有大量像素，我需要对其进行旋转以计算出新的相机视角，这种操作可以对许多不同的像素并行执行。”

这种并行计算的能力恰好对训练和运行AI模型非常有用，因为AI模型的计算通常涉及使用巨大的数字网格同时进行运算，称为矩阵乘法。Conti 说：“GPU是非常通用的架构，但它们极其适合展现出高度并行性的应用。”

然而，由于GPU最初并非针对AI而设计，它们在转换芯片上执行的计算时可能存在效率低下的问题。Conti 指出，张量处理单元（TPU）最初由某机构（原文：谷歌）于2016年开发，它完全是围绕矩阵乘法设计的，而这正是训练和运行大型AI模型所需的主要计算。

今年，某机构发布了其第七代TPU，名为 Ironwood，它为公司的许多AI模型提供动力，如某模型（原文：Gemini）和蛋白质建模模型某模型（原文：AlphaFold）。

TPU在AI领域比GPU好很多吗？

英国某大学（原文：布里斯托大学）的 Simon McIntosh-Smith 表示，从技术上讲，TPU更像是GPU的一个子集，而不是完全不同的芯片。“它们专注于GPU为AI训练和推理更具体地执行的那些部分，但实际上，在某些方面它们比你想象的更类似于GPU。”但由于TPU是针对特定AI应用而设计的，因此对于这些任务，它们可以高效得多，并可能节省数千万甚至数亿美元。

然而，Conti 表示，这种专一化也有其缺点，如果AI模型在几代产品之间发生重大变化，TPU可能会缺乏灵活性。“如果你的TPU缺乏灵活性，你就只能在数据中心的节点上使用CPU来进行计算，这会极大地拖慢速度。”

某机构（原文：Nvidia）的GPU传统上拥有的一大优势是，有现成的简单软件可帮助AI设计者在其芯片上运行代码。Conti 说，TPU刚出现时并没有同样简单的软件，但这些芯片现在已经发展到更易于使用的阶段。“现在使用TPU，你可以做到和GPU同样的事情。既然已经实现了这一点，可用性显然就成了一个主要因素。”

谁在构建TPU？

尽管某机构率先推出了TPU，但许多大型AI公司以及较小的初创公司现在都已开始开发自己专用的TPU，包括某机构（原文：亚马逊），它使用自己的 Trainium 芯片来训练其AI模型。

McIntosh-Smith 说：“大多数大型AI公司都有内部开发项目，部分原因是GPU变得非常昂贵，因为需求超过了供应，而设计和构建自己的芯片可能更便宜。”

TPU将如何影响AI行业？

某机构开发其TPU已超过十年，但之前主要将这些芯片用于自身的AI模型。现在似乎正在发生变化的是，其他大型公司，如某机构（原文：Meta）和某机构（原文：Anthropic），正在大量购买某机构TPU的计算能力。McIntosh-Smith 说：“我们之前没听说有大客户转换阵营，也许现在这种情况开始发生了。它们已经足够成熟，而且数量也够了。”

他表示，除了为大型公司创造更多选择外，分散采购来源在财务上也可能很明智。“这甚至可能意味着将来你能从某机构（原文：Nvidia）那里获得更好的交易。”FINISHED