云故障不可避免,韧性需架构设计。多云策略分散风险,专业云应对AI压力,提供可预测性与成本控制,确保业务连续性。
译自:Building Multicloud Resilience for the AI Era
作者:James Rowell
当 亚马逊云科技 (Amazon Web Services) 在十月发生故障时,连锁反应立竿见影。网络上的主要零售商、平台和 SaaS 应用程序陷入停顿。几天后,微软 Azure 也经历了一次大规模故障。这些接连发生的事件严酷地提醒了每位 IT 领导者都知道但有时会忘记的一点:没有云提供商能够幸免于停机。
韧性始于现实主义。在云运营中,目标不是预防每一次故障——而是为故障不可避免地发生时做好准备。这意味着多样化技术栈、供应商和区域,以便系统能够优雅地进行故障转移,而不是完全停止运行。为故障而设计体现了远见和专业性,而非悲观主义。
即使是最大的超大规模云提供商也面临着复杂、相互依赖的架构,这使得完美的正常运行时间成为不可能。单纯的规模并不能保证可靠性。随着基础设施变得更加庞大和互联,小小的控制平面故障可能会在区域和服务之间产生连锁反应。超大规模并不自动意味着超韧性。
从冗余到韧性
多年来,灾难恢复被视为一项备用计划——每年测试一次,并希望永远不需要用到。如今,韧性是一种架构原则。精心设计的多云环境可以降低单一供应商风险,同时让每个提供商都能发挥其所长。
这种转变将韧性从一种防御性措施变为一种主动的性能策略。弹性设计超越了应对中断,它使团队能够优化工作负载,以实现性能、成本和合规性。将应用程序分布在专用云(那些专为存储、计算或内容交付而构建的云)上,使团队能够同时实现冗余和可靠性。
AI 压力:为什么专用云比以往任何时候都更重要
人工智能的迅速崛起给云基础设施带来了前所未有的压力。Runtime 最近的一篇报道强调了一个日益增长的担忧:人工智能工作负载正在为云运营引入新的脆弱性。训练模型和移动海量数据集会消耗大量的计算和网络资源,这往往会使为日常软件即服务和企业工作负载提供动力的系统不堪重负。
随着超大规模云提供商优先分配稀缺的 GPU 容量,其他工作负载可能会经历节流或性能下降。专业云提供商有助于缓解这种压力。与专注于特定能力(例如高吞吐量对象存储、区域分布式计算或节能基础设施)的供应商合作,可以全面提高可靠性和可预测性。
专业化还能带来更明智的架构决策。IT 团队无需将所有工作负载都强制纳入单一提供商的框架,而是可以根据业务目标调整基础设施选择,无论是为 AI 流水线提供更低延迟的访问,为归档数据提供成本优化的存储,还是实现跨区域的合规性冗余。
可预测性、成本控制和透明度
大多数 IT 领导者都深知意外云账单带来的震惊。浮动定价、隐藏的出站费用和不透明的使用模式可能会损害即使是管理最佳的预算,尤其是在 AI 工作负载规模不可预测的情况下。
多云策略通过允许团队将工作负载与提供清晰、可预测定价的提供商匹配来恢复控制。专用云通常从一开始就将透明度融入其模型中,消除不愉快的意外,并实现真正的 FinOps 纪律。
可预测的定价不仅能改善预算,还能同样程度地增强韧性。当团队能够自信地预测开支时,他们可以在中断或需求激增期间扩展或转移工作负载,而无需担心财务后果。
为选择而设计
亚马逊云科技和 Azure 的故障强调了每个 IT 组织都必须接受的一个现实:韧性无法购买;它必须通过架构来实现。抵御故障的最佳保障不是提供商的承诺,而是能够预见中断并在中断中持续运行的设计。
这种设计始于选择——选择供应商、架构、区域和恢复路径。通过采用专业云并智能地分发工作负载,公司可以建立灵活性,以便在出现问题时(而不是如果出现问题时)进行适应。
韧性不是绕过云;而是在云中工作——有意识地、跨提供商地——这样任何单一故障都无法让你垮掉。