携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第28天,点击查看活动详情
高可用性解决方案
什么是高可用性 (HA)?
在 IT 操作的上下文中,术语“高可用性”是指旨在通过减少或管理故障并最大限度地减少计划内停机时间来避免服务丢失的系统(网络、服务器阵列或群集等)。
当生命、健康和福祉(包括经济福祉)受到威胁时,系统有望高度可用。
.
高可用性管理
只有通过全面的规划和一致的监控,才能实现高可用性。
高可用性规划的一个良好起点涉及确定必须可用于业务连续性的服务以及应可用的服务。
对于每个服务级别,从必须到应该,决定组织愿意走多远以确保可用性也是值得的。这应该基于预算、员工专业知识和对服务中断的总体容忍度。
接下来,确定构成每个服务的系统或组件,并列出这些系统的可能故障点。应首先检查每个故障点,建立容错基线,并定义持续监视的频率。关于常见故障点,要问的一些关键问题包括:
- 网络可用性: 与互联网服务提供商 (ISP) 的 SLA 相比,您的网络的可用性如何?通过网络监控软件,使用网络互联网控制消息协议 (ICMP) 回显 ping 来检查这一点。
- 带宽使用情况: 您的系统在高峰和空闲时间消耗多少带宽?从托管路由器和 Internet 信息服务 (IIS) 日志分析中获取此信息。使用它来规划已知峰值(年终压痕、关键购物日等)的带宽分配,并避免带宽不足的情况。
- HTTP 可用性和可见性: 您是否在内部、每个 ISP 和每个地理位置监视系统 HTTP 请求?内部请求的问题可以作为对外向问题的早期预警。跟踪来自 ISP 网络的 HTTP 请求,以确定这些网络的用户是否可以访问您的服务,并监控来自不同地理位置的请求,以确保来自世界任何地方的用户都能够使用您的服务。
- 系统可用性: 您是否在跟踪异常和正常的操作系统、数据库和企业服务器系统关闭?
- 性能指标: 您是否监视访问您的站点或使用企业应用程序的用户数量,并将这些数字与请求延迟和历史 CPU 利用率进行比较?您是否按功能对服务器进行了分组,是否监视磁盘容量和 I/O 吞吐量?您是否检查光纤通道控制器和交换机带宽,并密切关注整体系统内存使用情况?
了解 Imperva 站点故障转移如何帮助您实现高可用性 。
高可用性和灾难恢复
高可用性规划旨在确保系统正常运行时间,而灾难恢复旨在最大限度地减少或消除停机时间。这些是同一业务连续性硬币的两面,通过以下方式定义:
- 恢复时间目标 (RTO) – 企业在没有系统可用性的情况下可以运行的时间
- 恢复点目标 (RPO) — 系统恢复后数据将有多旧。
在规划阶段,应使用这两个指标来确定目标和优先级。例如,在高可用性规划期间被定义为任务关键型的系统在灾难恢复规划中必然具有尽可能低的 RTO。
数据同步和复制、备份和故障转移也是如此 — 灾难恢复规划的所有关键方面。您的组织如何选择同步给定系统的数据应该是该系统重要性的直接结果,如高可用性规划中所确定的那样。
对于给定系统,是否维护热故障转移选项或热故障转移选项,都应牢记系统的“必须与应该”状态,如上所述。
高可用性规划与灾难恢复规划非常相似,还应包括内部资源和供应商支持的解决方案的正确组合。
例如,维护一个外部部署故障转移系统,该系统将监视任务关键型系统运行状况,并在发生故障时将流量实时重新路由到备份系统或数据中心,这对于高可用性至关重要。此外,基于云的同步选项可以确保关键系统的“热-热”故障转移解决方案始终可以访问最新的数据。
与灾难恢复规划类似,高可用性规划可确保对组织至关重要的系统将继续提供最佳服务。
使灾难恢复和高可用性规划保持一致有助于确保停机时间和平均故障间隔时间(MTBF - 系统故障之间的预测经过时间)始终保持最短。