延迟如何悄无声息地摧毁大规模企业AI

62 阅读6分钟

文章探讨了人工智能系统中延迟问题,强调数据库是关键。地理分布式数据库通过缩短数据与AI模型的距离来降低延迟。文章还介绍了六种部署拓扑,各有优缺点,旨在构建弹性AI系统。总之,应在数据库层重视延迟问题,构建低延迟的数据基础设施。

译自:Why Latency Is Quietly Breaking Enterprise AI at Scale

作者:Andrew Marshall

随着企业在人工智能上投入越来越多的技术预算,他们期望它能带来突破性的效率和更明智的决策。但许多人没有预见到一个问题:延迟。

为了使人工智能系统发挥作用,它们必须能够快速访问和处理数据,无论是生成内容、分类数据还是做出实时决策。每一毫秒都很重要。许多人工智能管道中延迟的根本原因不是模型或计算层,而是数据库

人工智能与延迟的联系:为什么速度很重要

为了有效地工作,人工智能需要两个关键阶段:训练和推理。两者都严重依赖于对大量数据的快速、可靠的访问。当人工智能模型在推理过程中实时做出决策或生成输出时,延迟变得尤为重要。获取必要数据的任何延迟都会减慢结果、降低用户体验,或者更糟,导致彻底的系统故障。

想象一个扫描交易的欺诈检测系统或一个生成响应的人工智能助手。如果底层数据库跟不上,人工智能模型就会停滞。延迟不仅仅是不便;它破坏了人工智能的整个价值主张。

随着这些系统扩展,问题会加剧。更多的用户、更多的数据和更多的区域引入了更多潜在的故障点,除非数据基础设施是为低延迟、分布式访问而构建的。

延迟何时破坏人工智能

最近生成式人工智能平台的故障就是一个真实的例子,表明数据库响应能力中看似微小的延迟如何导致大规模故障。在另一个领域,自动驾驶汽车依赖于大型人工智能模型支持的实时决策。访问传感器数据或环境地图时,即使是微小的延迟也会影响安全导航,并导致延误或事故。

低延迟不仅仅是提高性能。它还能确保信任、安全和业务连续性。

充分利用您的数据层

在谈论人工智能时,很容易忽略数据库。但这是一个错误。如果模型是大脑,数据库就是循环系统。如果数据移动不够快,大脑将停止运作。

这意味着需要一个强大的架构来确保快速、可靠地访问数据,无论用户、应用程序或模型位于何处。这就是地理分布式数据库变得至关重要的地方。

构建人工智能弹性:地理分布式架构

地理分布在物理上和网络上都减少了人工智能模型和数据之间的距离。这涉及复制数据并将其定位在更靠近需要它的地方。结果是始终如一的低延迟访问,即使跨区域和可用区也是如此。

以下是支持低延迟、弹性人工智能操作的六种部署拓扑,以及潜在的权衡:

1. 单区域多可用区集群

单区域多可用区集群由三个或更多协同工作并在同一区域内的可用区之间共享数据的节点组成。虽然这种设置提供了优势,但它也存在一些缺点,例如对于从区域外部访问数据的应用程序,读取和写入延迟增加,以及对天气相关事件和自然灾害造成的区域范围中断的保护有限。此配置最适合需要强一致性、高可用性和单个区域内的弹性的情况,特别是当您的用户或应用程序位于附近并且可以从低延迟访问中受益时。

2. 同步复制

使用同步复制的集群提供高可用性和弹性,确保零数据丢失 (RPO) 和最短恢复时间 (RTO)。但是,跨多个区域部署可能会增加写入延迟和跟随者读取,并且可能会牺牲一致性以实现更低的延迟。

3. 单向异步复制

使用单向异步复制的多区域集群提供灾难恢复,具有非零恢复点目标 (RPO) 和恢复时间目标 (RTO)。它们在源集群区域内提供强一致性和低延迟读取和写入,而接收器集群保持最终(时间线)一致性。但是,由于接收器集群是只读的并且不处理写入,因此位于源区域外部的客户端可能会遇到高延迟。由于xCluster复制绕过复制数据的查询层,因此数据库触发器不会执行,这可能会导致不可预测的行为。

4. 双向异步复制

双向异步复制有助于灾难恢复,具有非零 RPO 和 RTO,在写入处理集群中提供强一致性,在远程集群中提供最终一致性,以及低延迟的读取和写入。但是,它也存在一些权衡:由于绕过查询层,数据库触发器不会触发;由于复制发生在预写日志 (WAL) 级别,因此不会强制执行唯一约束,从而导致数据不一致的风险;并且自动递增 ID 可能会在主动-主动设置中导致冲突,因此建议改用唯一用户 ID (UUID)。

5. 具有数据固定的地理分区

具有数据固定的地理分区最适合需要数据驻留在特定地理区域中的用例,因为它提供法规遵从性、强一致性以及该区域内的低延迟访问。它适用于逻辑分区的数据集,例如特定国家/地区的用户帐户或本地化的产品目录。重要的是要考虑到,当用户在其固定区域之外访问其数据时,可能会发生跨区域延迟。

6. 只读副本

只读副本提供快速、时间线一致的读取以及到主集群的低延迟写入,从而保持总体上更强的一致性。但是,副本不会提高弹性,因为它们与主副本绑定并且无法处理写入。即使存在附近的只读副本,远程客户端的写入延迟也可能仍然很高。

延迟不是一个错误,但它通常是过早做出且过晚重新审视的架构决策的结果。为了使人工智能能够大规模成功,必须在数据库层考虑延迟,并将其指定为首要设计关注点。

投资于低延迟、地理感知数据基础设施的企业不仅能够保持其人工智能系统的运行,还能确保它们更快、更智能并且真正具有变革性。