渐进上云,统一AI数据栈

3 阅读6分钟

人工智能系统因缺乏实时上下文而受阻。传统云迁移成本高。“绞杀者模式”结合代理层,可安全渐进地现代化遗留系统,确保AI获取实时数据,降低成本,提高稳定性。

译自:Unify the Data Stack for AI With Incremental Cloud Migrations

作者:Joseph Morais

即使人工智能能够卸载重复性任务并加速学习和提高生产力,你每天仍会听到更多关于尚未完全准备好投入生产的人工智能系统的轶事。金融服务、医疗保健和法律系统中由人工智能驱动的错误案例揭示了当这些系统建立在碎片化数据基础上时所面临的风险。

尽管我们还不能指望人工智能总能做到万无一失,但这不一定是由于底层模型尚未准备好。通常,这是因为人工智能系统无法访问它们所需的数据,以理解业务的当前状态。那些能够实时有效地为大型语言模型(LLMs)提供“上下文”的组织,可以构建基于领域特定知识训练的人工智能代理,并根据新鲜的、情境化的信息做出更优决策。

这就是为什么许多企业开始关注云计算架构师几十年来一直在推动的相同迁移计划:将本地数据库和应用程序迁移到更敏捷的云环境。

常见错误阻碍人工智能投入生产的进程

麦肯锡研究估计,75% 的云迁移项目超出预算或延误,每三年给组织造成总计 1000 亿美元的损失。传统的“大爆炸”迁移模式是问题的根源,因为它需要一次性、高风险的切换,并常常引发连锁故障。

考虑以下情况:

  • 迁移项目拖延两年,需要无休止地重新规划,并且仍然未能按期完成。
  • 十几个团队浪费时间盯着仪表板,争论新微服务和遗留单体系统之间的问题。
  • 人工智能计划总是被那个“最后一个关键系统”所阻碍,导致路线图推迟数个季度。

你无法承受只消耗预算却交付这类结果。相反,你需要将数据系统的迁移视为一个演进的、可测试的过程,而不是一个悬崖边缘事件。你需要一个假定并管理持续变化的运营模式,以便正在进行的项目在此期间可以依赖实时系统。

绞杀者模式(strangler fig pattern),最早由 Martin Fowler 于 2004 年描述,定义了一种理想的架构方法,可以在降低迁移成本和解锁人工智能代理所需的实时上下文的同时,安全地现代化遗留的批处理数据系统。通过将此模式与基于代理的流量引导相结合,您的工程团队可以逐步分解其单体数据库和应用程序,而不会中断服务。

绞杀者模式如何工作:逐步替换单体系统

绞杀者模式将云迁移分解为可管理的步骤,从而使一项庞大的任务变得易于处理。构建新的云原生服务来替代现有功能;并行运行遗留服务和云原生服务;通过逐步切换验证新服务;然后淘汰遗留系统。

您重复此过程,直到单体系统逐渐被淘汰并缩小到无,并且永远不需要一次性、高风险的周末切换。

如何使用代理层实现安全、可逆的切换

这种架构模式需要复杂的流量控制,而代理层引导正是在此发挥作用。API 网关、反向代理或服务网格充当系统前的关键流量防护罩,完全不需要任何客户端更改。这使得增量迁移成为可能,而不会面临停机或数据丢失的风险,因为:

  • 所有入站请求在到达任何系统之前都会先经过代理。
  • 路由规则自动决定流量是流向遗留单体路径还是新的微服务。
  • 您逐步将流量从遗留系统转移到云:100% 遗留 → 90% 遗留,10% 新 → 75% 遗留,25% 新 → 50% 遗留,50% 新 → 100% 新。

如果出现任何问题,您可以立即回滚流量,而无需涉及客户端。

整个蓝图依赖于一个中心化、可扩展的事件流骨干网,以管理复杂混合环境中的大量业务事件流。

可重复的四步迁移以提高数据可用性

您的迁移始于使用 6R 框架进行云就绪评估:重新托管(rehost)、重新平台化(replatform)、重构(refactor)、重新购买(repurchase)、淘汰(retire)和保留(retain)。这个框架迫使您对每个应用程序做出关键决策:是替换系统(重构/重新购买)、现代化系统(重新平台化)还是保持现状(保留/淘汰)。对于归类为重构或重新平台化的系统,请遵循以下四步执行路径:

  1. 选择目标领域: 选择一个领域或限定上下文,例如“开户”或“发送支付”。将该领域的所有流量通过可控代理进行路由。
  2. 统一批处理和实时数据: 实现从遗留数据库到事件流平台的变更数据捕获(CDC)流。从第一天起就定义健壮的模式和契约。
  3. 构建事件驱动的微服务: 构建新的微服务,专门消费和生产流。该平台为该领域建立了单一的、规范的真理来源。
  4. 转移并淘汰: 代理逐步将流量引导至新服务。您严格监控指标和数据质量。一旦验证通过,就淘汰遗留路径。然后,对下一个领域重复此过程。

该蓝图避免了常见的架构陷阱,包括没有流的代理(这会产生数据孤岛)和没有数据契约的流(这会导致模式混乱)。这不仅仅是理论。事实上,米其林利用这种增量模型进行了为期九个月的云迁移,实现了记录在案的 35% 成本节约和 99.99% 的正常运行时间,每个应用程序的停机时间不到两小时,这表明速度和稳定性并非相互排斥。

将其扩展到整个产品组合,这便是积累额外意外成本与拥有资金资助下一波人工智能计划之间的区别。

现代化您的数据资产提升您的人工智能战略

人工智能路线图常常是脆弱的批处理系统和迁移摩擦的牺牲品,耗费时间和预算。使用绞杀者模式赋予工程师新的架构师和协调者的角色

  • 它实现了具有外科手术般精度的增量现代化,而非重大中断。
  • 它直接向您的人工智能模型提供实时业务可见性,消除了过时数据。
  • 它显著减少了束缚您各项计划的迁移成本。

放弃“大爆炸”迁移而采用绞杀者模式和基于代理的引导的组织,将自己定位为抓住下一波价值,节省了当今迁移超支的大部分成本。