携手创作，共同成长！这是我参与「掘金日新计划 · 8 月更文挑战」的第26天，点击查看活动详情

业务连续性规划

在 IT 环境中，业务连续性是指您的企业在发生破坏性事件（如自然灾害、网络攻击和通信故障）时保持在线并提供产品和服务的能力。

此概念的核心是业务连续性计划 — 一个已定义的策略，包括组织的各个方面以及维护业务可用性的详细过程。

业务连续性管理首先要规划如何在中断期间和之后维护关键功能（例如 IT、销售和支持）。

业务连续性计划（BCP）应包含以下内容

1. 威胁分析

识别潜在的中断，以及它们可能对受影响的资源造成的潜在损害。示例包括：

2. 角色分配

每个组织都需要一个明确界定的指挥链和替代计划，以应对危机情况下人员短缺的问题。员工必须接受职责交叉培训，以便能够相互填补。

内部部门（例如，营销，IT，人力资源）应根据其技能和职责细分为团队。然后，团队领导可以根据组织的威胁分析将角色和职责分配给个人。

3. 通讯

传播战略详细说明了信息在发生后和期间以及信息解决后立即传播的方式。

您的策略应包括：

4. 备份

从电力到通信和数据，每个关键业务组件都必须有一个足够的备份计划，其中包括：

负载平衡通过将传入请求分布在数据中心的多个后端服务器来保持业务连续性。这在服务器发生故障时提供了冗余，确保了应用程序的连续正常运行时间。

与故障转移和灾难恢复中使用的反应式措施（如下所述）相比，负载平衡是一种预防措施。运行状况监控跟踪服务器可用性，确保始终（包括在中断事件期间）的准确负载分布。

即使是经过深思熟虑的业务连续性计划也从来都不是万无一失的。尽管您尽了最大努力，但有些灾难根本无法减轻。灾难恢复计划（DCP）是第二道防线，使您能够以最小的损害从最严重的中断中恢复过来。

顾名思义，灾难恢复计划涉及在重大中断后恢复操作。它由两个因素定义：RTO 和 RPO。

灾难恢复计划

恢复时间目标（RTO） – 关键功能和组件可接受的停机时间，即还原服务所需的最长时间。应根据每个业务组件的重要性（例如，网络服务器为十分钟，电话系统为一小时）为每个业务组件分配不同的 RTO。
恢复点目标（RPO） – 中断后必须将操作状态还原到的点。就备份数据而言，这是它可能具有的最早的年龄和陈旧级别。例如，每小时更新的网络服务器的最大 RPO 应为 59 分钟，以避免数据丢失。

确定特定的 RTO 和 RPO 有助于清楚地显示实现恢复目标所需的技术解决方案。在大多数情况下，决策将归结为选择正确的故障转移解决方案。

故障转移是在发生故障、中断或停机时在主系统和备份系统之间切换。它是灾难恢复和业务连续性计划的关键组件。

故障转移系统应通过使备份基础结构和数据保持就绪状态来同时满足 RTO 和 RPO 目标。理想情况下，故障转移解决方案应无缝启动，以使最终用户免受任何服务降级的影响。

在选择解决方案时，要考虑的两个最重要的方面是其技术实力和服务级别协议（SLA）。后者往往是前者的反映。

对于负责网站或 Web 应用程序业务连续性的 IT 组织，有三个故障转移选项：

硬件解决方案 – 在内部设置和维护的一组单独的服务器保留在内部，以便在发生故障时联机。但是，请注意，将此类服务器保留在同一位置可能会使它们容易被相同的灾难/干扰而关闭。
DNS 服务 – DNS 服务通常与硬件解决方案结合使用，以将流量重定向到外部数据中心的备份服务器。此设置的缺点包括与 TTL 相关的延迟，这些延迟可能会阻止无缝灾难恢复。此外，管理 DNS 和内部数据中心硬件故障转移解决方案既耗时又复杂。
边缘服务 – 边缘故障转移是从外部（例如，从 CDN 层）运行的托管解决方案。此类解决方案更实惠，最重要的是，不依赖 TTL，从而实现近乎即时的故障转移，使您能够满足最积极的 RTO 目标。