Neoclouds:AI存储锁定困境的终极答案

3 阅读6分钟

AI推动云计算专业化,新型云提供低成本高性能GPU。企业采用多云策略,需灵活分布式存储。分层存储避免锁定,优化成本与性能,实现数据本地化。

译自:Why Neoclouds Are the Answer To AI Storage Lock-in

作者:Jelani Harper

随着AI在企业中的发展,其对云竞赛的影响是其更具意义的后果之一。行业正在从三大超大规模云服务商(AWSGoogle CloudMicrosoft Azure)的服务整合,转向一种以专业化而非集中化为首要任务的新模式。

新型云(Neoclouds)凭借其针对统计AI的超专业化工作负载,正在推动这一日益壮大的运动。CoreWeave、Lambda和Crusoe等云提供商按需提供GPU,同时专注于模型训练、微调和推理等基础AI任务。通过承诺以更低的成本提供更好的性能,它们正在吸引企业用户。

这一发展的一个影响是,组织开始采用多个计算提供商。根据Tigris Data首席执行官Ovais Tariq的说法,这一趋势有助于组织避免供应商锁定并获得可移植性。相反,他们可以“利用任何计算服务,无论是出于成本性能考虑,还是由于数据本地性要求。”

另一个影响是,对灵活、分布式存储层的需求增加,以支持跨任何云的分布式计算。在提供商之间迁移数据意味着用户必须能够根据数据放置智能地将存储从远程资源分层到本地资源。他们可以通过将经济高效的远程对象存储作为其真相源来实现这一点。

有竞争力的供应商提供此类弹性存储,且不收取出口费用,即当公司希望在提供商之间移动数据时收取的臭名昭著的“云税”。利用这种灵活的存储,组织可以将数据放置在靠近其计算资源的位置,并为新型云按需“注入”数据。在那里,他们获得快速访问的本地存储,以优化AI工作负载。

分布式数据的动态存储作用

利用新型云优势的去中心化计算需求,很大程度上取决于底层存储。Tariq表示,可靠的供应商采用直接数据放置方法,其中数据以分布式方式保存在对象存储中。他们可能在整个区域拥有多个数据中心,因此可以将数据复制到最靠近计算资源的地方。

例如,如果新型云位于德克萨斯州,数据将复制到西南地区。如果新型云总部设在罗德岛州,存储供应商可以将指定数据复制到新英格兰地区。

Tariq说,由于这些提供商可以将“数据移动到相同的地理位置,复制数据的延迟更低,并且可以高吞吐量复制数据。”超大规模云服务商不总能实现这些优势,因为它们的存储架构是集中式的——数据始终存储在一个位置。

廉价远程对象存储的优势

当代分布式计算和云架构的存储分层是二元的。Tariq说,有一个提供真相源的远程层,以及一个“靠近计算资源,位于同一网络、同一局域网或同一数据中心”的本地层。由于远程层独立于新型云,组织可以使其工作负载适应任何新型云,并从弹性对象存储中获益。

云的弹性允许按需扩展存储容量;对象存储非常适合为高级机器学习(ML)部署提供动力的半结构化和非结构化数据。对象存储也非常经济高效,这补充了无服务器计算的低开销以及与有竞争力的对象存储供应商之间的数据出口费用缺失。

何时为AI工作负载使用快速本地存储

由于本地存储比远程存储快得多,本地层是AI用例的理想选择。这种存储通常是基于闪存的,涉及SSD或NVMes

“本地存储用于处理频繁访问的数据,”Tariq解释道。“或者,它被用作缓存或存储数据的一个子集。”

在性能方面,任何ML推理作业都受益于本地层。然而,Tariq说,导致更快访问的相同因素也导致使用本地、非弹性存储的更高成本。

“你需要购买固定容量,而且你只有有限的容量。它不是无服务器的。”

因此,本地存储不适合长期使用,更适合临时性AI工作负载,这就是为什么数据主要保留在对象存储中,直到为新型云AI启动本地集群。

新型云存储部署在实践中如何运作

用户可以根据提供商的AI专业化选择新型云,例如预测、微调以及具备执行任务所需的GPU容量。直接放置对象存储提供商可以动态地将数据复制到靠近计算处理发生地的数据中心。

这种做法加强了数据注入的快速访问和更低成本——沿海地区拥有可用区的超大规模云服务商无法与使用位于内陆的新型云注入数据的成本相媲美。

Tariq说,这还允许你使用PyTorch等批处理工具,用对象存储中的数据来注入本地存储。一旦工作负载完成,你只需关闭集群。这种方法与云原生架构的当代无状态原则一致。此外,原始数据和计算输出都存储在去中心化的对象存储中。

分层存储如何实现云选择和可移植性

远程和本地存储的二分法不仅仅支撑了新型云部署所基于的分布式计算基础。尽管也有显著的成本节约,但这些存储分层的主要好处是能够避免供应商锁定,同时可以采用任何选择的云,包括新型云和超大规模云服务商。

这一优势是分布式计算、新型云现实中新获得自由的组成部分。将快速本地存储与经济高效的长期对象存储结合,还能以更低的成本带来更好的性能,这对于成功的高级ML应用程序至关重要。

最后,选择专门针对给定工作负载的云的能力也强化了数据本地性,因为用户现在可以将他们的数据放置在最靠近所选云的位置。这样做可以加强他们注入数据的速度,支撑这种现代架构的性能和成本优势。

随着越来越多的用户利用这种模式,它也增加了市场上为AI工作负载提供更专业服务的竞争,这些服务在质量和成本上都展开竞争。