携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第28天,点击查看活动详情
disaster recovery解决方案
什么是 disaster recovery?
灾难恢复 (DR) 包括准备组织的重要 IT 基础架构以从自然或人为灾害中有效恢复并确保业务连续性的过程、策略或流程。
从网络攻击和设备故障,到飓风或其他自然灾害,灾难恢复需要涵盖威胁 IT 基础设施可用性的任何可能情况。近年来,灾难恢复在企业计算预算中占据越来越重要的地位,通常占IT计算费用的20-25%。
制定正确的灾难恢复计划
灾难恢复计划 (DRP) 描述了组织将如何响应任何给定的灾难方案,其目标是支持时间敏感的业务流程和功能,并保持完全的业务连续性。
DRP 包含响应式和预防性元素,是公司业务连续性计划 (BCP) 的关键部分。在响应方面,DRP描绘了许多灾难场景,并定义了每个场景的详细响应,目的是最大限度地减少该事件的负面影响。在预防方面,DRP旨在通过定义组织需要做什么来避免特定情况的负面影响,从而最大限度地减少这些情况的负面影响。
更具体地说,DRP 需要预测和制定行动计划,以应对以下关键任务 IT 组件和服务的丢失:
- 完整的机房环境
- 关键 IT 硬件,包括网络基础设施、服务器、台式机或笔记本电脑、无线设备和外围设备
- 服务提供商连接
- 企业软件应用程序
- 数据存储设备或应用程序
为了实现最大效率并控制成本,组织应计划在其灾难恢复规划中利用内部资源和供应商支持的解决方案的组合。最佳的内部/供应商组合取决于组织的特定灾难恢复目标,这些目标以恢复时间目标 (RTO) 和恢复点目标 (RPO) 来衡量。恢复时间目标可以粗略地定义为企业在没有系统可用性的情况下可以运行的时间量,而恢复点目标表示一旦系统恢复,数据将有多旧。
数据中心灾难恢复
为了满足组织的 RTO 和 RPO 目标,数据中心运营商面临着许多挑战。一个关键的挑战是数据同步。换句话说:如何最好地确保所有备用位置的数据都是最新的,以保证服务的一致性和业务连续性,即使在发生灾难时也是如此?
在某种程度上,这个问题的答案在于复制级别,这可以定义为接收系统(备份环境)确认从发送系统(生产环境)接收数据的频率。最常见的复制方法是:
- 同步复制 – 最安全但对资源要求最高的复制方法。在同步复制方案中,接收系统确认从发送系统收到的每个更改。采用此方法需要维护“热”备份站点,并且与“热”故障转移解决方案和全局服务器负载平衡 (GSLB) 解决方案结合使用时,此方法最有效。
- 半同步复制 – 接收系统仅在收到一系列更改后才发送确认。这种同步方法与“暖”故障转移方法并行,对于在发生灾难时可能导致一些数据丢失和合理停机时间的服务来说,这可能是正确的选择。
- 异步复制 - 此方法的数据复制速度更快,但安全性较低,因为发送系统只是继续发送数据,而不会收到任何响应。与“冷”故障转移方法并行,此方法最适合静态资源或可接受数据丢失的方案。
创建 DRP 时,组织需要确保其故障转移策略与其选择的同步方法完全一致。
例如,“热-热”同步/故障转移策略可确保数据始终 100% 同步,并且并行系统始终准备好以最小的延迟或停机时间接管生产系统。
但是,如果数据中心选择了异步复制,则可能不保证维护热故障转移服务器的费用,因为在任何给定的故障时刻都不一定完全复制数据。
最后,对于有效的数据中心灾难恢复而言,维护一个外部部署故障转移设备非常重要,该设备将监视系统运行状况,并在发生故障时将流量实时重新路由到备份数据中心。