微软宣布Azure ND A100 V4云GPU实例全面上市最近，微软宣布由NVIDIA A100 Tensor Co

最近，微软宣布由NVIDIA A100 Tensor Core GPU驱动的Azure ND A100 v4云GPU实例全面上市。这些虚拟机（VM）针对的是拥有高性能和高要求工作负载的客户，如人工智能（AI）和机器学习（ML）工作负载。

该公共云供应商在公开预览中发布了Azure ND A100 v4 Cloud GPU，作为高性能计算（HPC）的虚拟机，用于人工智能工作负载。其目的是提供大量的计算能力，与业内其他大型AI超级计算机在原始规模和先进技术方面进行竞争--这些ND A100 v4虚拟机系列现在是GA。

其他公共云供应商，如AWS和谷歌云，也提供了广泛的实例类型选择，不同的存储、CPU、内存和网络容量组合，允许客户根据其目标工作负载的要求扩展资源。例如，谷歌云在3月初推出了同样基于英伟达Ampere A100 Tensor Core GPU的加速器优化虚拟机（A2）系列。

根据高级项目经理Ian Finder在Azure Compute博客上发表的文章，在一个预发布的公共超级计算集群上使用164个ND A100 v4虚拟机进行加速HPC基础设施基准测试，得出了16.59 petaflops的高性能Linpack（HPL）结果--根据作业运行的地区，在公共云基础设施上交付的结果将落入2020年11月全球最快超级计算机500强名单的前20名，或欧洲的前10名。

Finder还在Azure Compute的一篇博文中表示。

为了利用事实上的行业标准HPC和AI工具和库，客户可以利用ND A100 v4的GPU和独特的互连能力，而不需要任何特殊的软件或框架，使用与大多数可扩展的GPU加速的AI和HPC工作负载所支持的开箱即用的NVIDIA NCCL2库，而不必担心底层网络拓扑结构或放置。在同一个虚拟机规模集内配置虚拟机，可以自动配置互连结构。

而除此之外，英伟达公司加速计算部总经理兼副总裁Ian Buck在英伟达博客文章中写道。

英伟达与Azure合作构建了这个全新的扩展和延伸AI平台，该平台将突破性的英伟达安培架构GPU、英伟达网络技术以及Azure的高性能互连和虚拟机架构的力量结合在一起，使每个人都能获得AI超级计算。

ND A100 v4 VM系列从一个虚拟机（VM）和八个基于英伟达安培架构的A100 Tensor Core GPU开始。然而，它可以在一个集群中扩展到数千个GPU，每个虚拟机通过NVIDIA HDR 200Gb/s InfiniBand链接提供1.6 Tb/s的互连带宽：每个GPU有一个。定价从每小时27.20美元开始--更多细节可在定价页面查看。

此外，ND A100 v4还可以使用Azure机器学习（AML）服务，用于交互式人工智能开发、分布式训练、批量推理和ML Ops的自动化。而且该公司还打算让客户使用Azure Kubernetes Service（一种完全管理的Kubernetes服务），在ND A100 v4虚拟机上部署和管理容器化应用程序，并使用英伟达A100 GPU。

目前，ND A100 v4虚拟机在美国东部、美国西部2、欧洲西部和美国中南部的Azure区域内可用。

原文链接：www.infoq.com/news/2021/0…