Vultr:云端切片GPU,让加速计算变得人人可用

375 阅读5分钟

我看到一些Vultr Talon服务相关信息,探讨了一个非常有趣的话题。咱们知道,云服务提供商之间差别还是挺大的。就拿那三个云计算巨头——亚马逊的AWS、微软的Azure和谷歌云来说,他们各有千秋。比如很多企业因为和Windows基础设施兼容,就偏爱用Azure。

但是,有人觉得,对于很多客户来说,这些巨头的服务既复杂又晦涩,价格体系就像迷宫一样难以琢磨。于是他们的目标就是提供一种简单、经济的基础设施服务,让小型组织和个人也能享受到。

image.png

Vultr就是这样一家云基础设施提供商,最近推出了一个新服务,把虚拟机和Nvidia A100 GPU的一小部分配对,目的是以更低的成本提供GPU加速计算,从而让更多人接触到机器学习和数据分析。

image.png

Vultr的Talon服务用的是Nvidia的AI企业套件,还用到了他们的多实例GPU(MIG)技术,这技术可以将GPU及其资源分割成独立的实例,就像用虚拟机技术将一台裸机服务器切成好几个基于CPU核心和线程的虚拟机一样。

Vultr GPU服务查看:Vultr Cloud GPU

当然,其他云提供商也早就提供GPU服务了,但通常是整个GPU配合一个虚拟机实例或一整台裸机服务器,仅GPU使用费用一个月就要好几千美元,Vultr则声称他们不这样收费。

Vultr的首席执行官J.J. Kardwell表示:“大型云服务商主要关注的是有大规模和预算的企业,他们首先构建的产品是为了吸引这些大企业的大笔开销。在GPU方面,我们想提供行业领先的AI/ML GPU,即Nvidia A100,但我们不想像其他云服务那样收费上千美元。所以,我们探索如何虚拟化A100,就像我们之前对云计算VM线路做的那样,把它分割成多个部分。”

Vultr还表示,Talon服务是在Nvidia的参与下开发的。

这样,Vultr能够以每月90美元的起价提供Talon服务,包括一个带有1个vCPU和6GB内存的虚拟机,以及等同于全尺寸Nvidia A100计算力1/20的虚拟GPU,外加4GB的GPU内存。

据说,这是通过使用Nvidia的vGPU软件(AI企业套件的一部分)实现的,但对于那些有10GB或更多GPU内存的Talon实例,使用Nvidia MIG技术来确保服务质量(QoS)和完全隔离的GPU内存缓存。

Nvidia的文档说明,vGPU软件通过时间分片在虚拟机之间共享GPU计算资源,但每个虚拟机都有自己专用的GPU内存区域。这与MIG技术形成对比,MIG技术静态地划分GPU核心,这样虚拟机只能使用分配给它的核心,也只能访问分配给它的内存。

这让我们觉得,软件vGPU模式类似于典型操作系统中的多任务处理方式,而MIG模式则更像一些高端系统(如IBM、惠普企业和NEC等)中看到的分区。这两者的差别,就像是硬件分区(MIG好比是多节点系统中的主板)与虚拟机(可以根据虚拟机监控程序和CPU定义为一个插槽、一个核心、一个线程或线程的一部分)之间的区别。

Vultr告诉我们,虚拟GPU只能作为Cloud GPU虚拟机的一部分进行配置,这些虚拟机必须部署在Vultr云中的服务器节点上,这些节点内部物理安装了Nvidia A100 GPU。当然,这是人们所期待的,但我们不确定该公司是否使用了某种技巧,允许虚拟机实例通过网络与安装在基础设施其他地方的GPU连接。(确实有其他公司在做这种远程GPU的事情,我们知道的一个叫做Juice Labs。)

不过,Vultr还告诉我们,希望从没有vGPU的虚拟机升级到Cloud GPU实例的客户,应该可以通过拍摄他们实例的快照,并从该快照中配置新的Cloud GPU实例来实现这一点。

Vultr提供了配备完整GPU的虚拟机,为想要GPU加速的用户提供了选择,从GPU的一小部分开始,一直到拥有8个完整GPU和640GB GPU内存,配合96 vCPUs和960GB RAM的虚拟机怪兽。同时也提供配备四个Nvidia A100 GPU和双24核英特尔至强SP处理器的裸机服务器。

我们询问Vultr,运行带vGPU的Cloud GPU虚拟机实例的客户是否可以通过添加第二个vGPU来增加其计算能力,而不必换用更强大的vGPU。技术上这是可能的,但目前公司通过其客户控制面板不支持此选项。

至于vGPU可能用于什么,Vultr表示,带有虚拟化Nvidia A100的Cloud GPU适用于不需要完整GPU的各种工作负载。一个例子是运行机器学习模型的推理,这通常需要的处理能力远小于训练。自然语言处理、计算机视觉和语音识别是一些适合在虚拟GPU上运行的特定应用。

新的Talon Cloud GPU服务建立在公司试图提供比大型云提供商更简单、更经济的服务的模式上。Kardwell说:“云计算的大部分开销都流向了亚马逊、谷歌和微软Azure,但世界上还有很大一部分人并不适用他们的定价模型和复杂性。”