《系统设计》课程学习笔记—灾难恢复

159 阅读2分钟

灾难恢复(Disaster recovery,DR,也称灾备或容灾)是在发生自然灾害、网络攻击甚至业务中断等事件后恢复基础设施访问和功能的过程。

灾难恢复依赖于在不受灾难影响的外部位置复制数据和计算机处理。当服务器因灾难而停机时,企业需要从备份数据的第二个位置恢复丢失的数据。理想情况下,组织也可以将其计算机处理转移到远方位置,以便继续运行。

在系统设计面试中,通常不会重点讨论灾难恢复,但对该主题有一些基本的了解是很重要的。你可以从 AWS Well-Architected Framework 中了解更多有关灾难恢复的信息。

为什么灾难恢复很重要?

灾难恢复有以下好处:

  • 尽量减少中断和停机时间
  • 损害降到最低
  • 快速恢复
  • 更好地留住客户

术语

让我们看一些与灾难恢复相关的重要术语:

disaster-recovery.webp

RTO

恢复时间目标(Recovery Time Objective ,RTO)是服务中断和服务恢复之间的最大可接受延迟。这决定了服务不可用时可接受的时间窗口。

RPO

恢复点目标(Recovery Point Objective,RPO)是自上次数据恢复点以来可接受的最大时间量。这决定了在最后一个恢复点和服务中断之间,什么是可接受的数据丢失。

策略

各种灾难恢复(DR)策略可以作为灾难恢复计划的一部分。

备份

这是最简单的灾难恢复类型,涉及在异地或可移动驱动器上存储数据。

冷站点(冷备)

在这种类型的灾难恢复中,组织在第二个站点中设置基本基础设施。

热站点(热备)

热站点随时维护数据的最新副本。热站点的设置非常耗时,而且比冷站点更昂贵,但它们可以大大减少停机时间。