最近,微软宣布由NVIDIA A100 Tensor Core GPU驱动的Azure ND A100 v4云GPU实例全面上市。这些虚拟机(VM)针对的是拥有高性能和高要求工作负载的客户,如人工智能(AI)和机器学习(ML)工作负载。
该公共云供应商在公开预览中发布了Azure ND A100 v4 Cloud GPU,作为高性能计算(HPC)的虚拟机,用于人工智能工作负载。其目的是提供大量的计算能力,与业内其他大型AI超级计算机在原始规模和先进技术方面进行竞争--这些ND A100 v4虚拟机系列现在是GA。
其他公共云供应商,如AWS和谷歌云,也提供了广泛的实例类型选择,不同的存储、CPU、内存和网络容量组合,允许客户根据其目标工作负载的要求扩展资源。例如,谷歌云在3月初推出了同样基于英伟达Ampere A100 Tensor Core GPU的加速器优化虚拟机(A2)系列。
根据高级项目经理Ian Finder在Azure Compute博客上发表的文章,在一个预发布的公共超级计算集群上使用164个ND A100 v4虚拟机进行加速HPC基础设施基准测试,得出了16.59 petaflops的高性能Linpack(HPL)结果--根据作业运行的地区,在公共云基础设施上交付的结果将落入2020年11月全球最快超级计算机500强名单的前20名,或欧洲的前10名。
Finder还在Azure Compute的一篇博文中表示。
为了利用事实上的行业标准HPC和AI工具和库,客户可以利用ND A100 v4的GPU和独特的互连能力,而不需要任何特殊的软件或框架,使用与大多数可扩展的GPU加速的AI和HPC工作负载所支持的开箱即用的NVIDIA NCCL2库,而不必担心底层网络拓扑结构或放置。在同一个虚拟机规模集内配置虚拟机,可以自动配置互连结构。
而除此之外,英伟达公司加速计算部总经理兼副总裁Ian Buck在英伟达博客文章中写道。
英伟达与Azure合作构建了这个全新的扩展和延伸AI平台,该平台将突破性的英伟达安培架构GPU、英伟达网络技术以及Azure的高性能互连和虚拟机架构的力量结合在一起,使每个人都能获得AI超级计算。
ND A100 v4 VM系列从一个虚拟机(VM)和八个基于英伟达安培架构的A100 Tensor Core GPU开始。然而,它可以在一个集群中扩展到数千个GPU,每个虚拟机通过NVIDIA HDR 200Gb/s InfiniBand链接提供1.6 Tb/s的互连带宽:每个GPU有一个。定价从每小时27.20美元开始--更多细节可在定价页面查看。
此外,ND A100 v4还可以使用Azure机器学习(AML)服务,用于交互式人工智能开发、分布式训练、批量推理和ML Ops的自动化。而且该公司还打算让客户使用Azure Kubernetes Service(一种完全管理的Kubernetes服务),在ND A100 v4虚拟机上部署和管理容器化应用程序,并使用英伟达A100 GPU。
目前,ND A100 v4虚拟机在美国东部、美国西部2、欧洲西部和美国中南部的Azure区域内可用。