SLA是啥?几个9的容错时间

716 阅读2分钟

定义

SLA(Service Level Agreement,服务级别协议)中的“9”用来量化服务的可用性水平,通常以一年内服务的正常运行时间占总时间的比例来表示。每个额外的“9”代表着更高的可用性和更短的预期停机时间。以下是不同数量“9”的SLA以及对应的年度最大允许停机时间:

几个9

  1. 99%(两个九):

(1 - 99%) × 365 × 24 = 87.6小时

这意味着在一年中,服务可能有最多87.6小时(约3.65天)的中断时间。

  1. 99.9%(三个九):

(1 - 99.9%) × 365 × 24 = 8.76小时

表示一年中服务的最大中断时间为8.76小时(约0.36天),即约等于3天多一点的时间内有不到1小时的中断。

  1. 99.99%(四个九):

(1 - 99.99%) × 365 × 24 = 0.876小时

对应一年中服务的最大中断时间为0.876小时(约52.6分钟),即在近一个月的时间内有不到1分钟的中断。

  1. 99.999%(五个九):

(1 - 99.999%) × 365 × 24 = 0.0876小时

一年中服务的最大中断时间为0.0876小时(约5.26分钟),即在近一周的时间内有不到1秒钟的中断。

随着“9”数目的增加,服务的可用性要求变得更加严格,对系统的冗余设计、故障恢复能力、运维管理等方面的要求也随之提高。实现更高的SLA等级通常需要投入更多的资源和技术手段,如使用负载均衡、故障切换、分布式系统、实时监控、自动化运维等。

总结来说,SLA中的“9”代表了服务可用性的不同级别,每个额外的“9”将年度最大停机时间减半左右,体现了服务对持续稳定运行的承诺程度。

在选择或设定SLA时,应根据业务需求、成本承受能力和技术可行性来确定合适的可用性目标。