灾难恢复(Disaster recovery,DR,也称灾备或容灾)是在发生自然灾害、网络攻击甚至业务中断等事件后恢复基础设施访问和功能的过程。
灾难恢复依赖于在不受灾难影响的外部位置复制数据和计算机处理。当服务器因灾难而停机时,企业需要从备份数据的第二个位置恢复丢失的数据。理想情况下,组织也可以将其计算机处理转移到远方位置,以便继续运行。
在系统设计面试中,通常不会重点讨论灾难恢复,但对该主题有一些基本的了解是很重要的。你可以从 AWS Well-Architected Framework 中了解更多有关灾难恢复的信息。
为什么灾难恢复很重要?
灾难恢复有以下好处:
- 尽量减少中断和停机时间
- 损害降到最低
- 快速恢复
- 更好地留住客户
术语
让我们看一些与灾难恢复相关的重要术语:
RTO
恢复时间目标(Recovery Time Objective ,RTO)是服务中断和服务恢复之间的最大可接受延迟。这决定了服务不可用时可接受的时间窗口。
RPO
恢复点目标(Recovery Point Objective,RPO)是自上次数据恢复点以来可接受的最大时间量。这决定了在最后一个恢复点和服务中断之间,什么是可接受的数据丢失。
策略
各种灾难恢复(DR)策略可以作为灾难恢复计划的一部分。
备份
这是最简单的灾难恢复类型,涉及在异地或可移动驱动器上存储数据。
冷站点(冷备)
在这种类型的灾难恢复中,组织在第二个站点中设置基本基础设施。
热站点(热备)
热站点随时维护数据的最新副本。热站点的设置非常耗时,而且比冷站点更昂贵,但它们可以大大减少停机时间。