正常运行时间研究所的研究证实,数据中心故障的时间、成本和严重程度继续上升

142 阅读4分钟

正常运行时间研究所的研究证实,数据中心故障的长度、成本和严重程度继续上升

弹性智囊团正常运行时间研究所的最新数据中心故障研究证实,停机事件在成本、时间和严重程度上都在增加。

尽管全世界的数据中心运营商都在尽力减少其设施所遭受的停机时间,但服务器场故障的严重程度和财务影响仍在不断上升。

根据数据中心弹性智囊团Uptime Institute的第四次年度停机分析调查,尽管运营商对旨在防止停机事件的技术进行了 "大力投资",但停机率仍在上升。

"该组织在其23页的年度中断分析报告中说:"中断的总体影响和成本并没有缩小--如人们所希望的那样--而是事实上在增长。"对基于云和分布式弹性的投资可能有助于减少站点级故障的影响,但它也带来了容易出错的复杂性。更好的管理和员工培训将有助于减少这些故障。"

该报告的见解是基于对公开的数据中心故障报告的分析,以及正常运行时间协会通过自己的行业调查和会员反馈积累的数据。

它说,它的发现承认,尽管由于 "几十年的创新、投资和更好的管理",数据中心比过去可靠得多,但社会对它们的依赖性越来越大,这意味着 "重大故障似乎更常见"。

它继续说。"尽管如此,从正常运行时间的广泛研究中可以看出,2021年和2022年的故障继续发生,其速度与前几年相比没有明显下降。证据表明,中断的干扰和成本事实上正在增加。

"简而言之,关键基础设施行业正在努力实现客户所期望的高标准--这些标准体现在服务水平协议中。"

其数据显示,五分之一的组织报告在过去三年中遭受了 "严重 "或 "严重 "的故障,这构成了 "重大故障的普遍性略有上升的趋势"。

同时,近年来,使受影响公司损失超过10万美元的故障比例飙升,现在有超过60%的故障导致至少10万美元的总损失,这比2019年的39%明显上升。

在同一时期,损失超过100万美元的故障份额从11%增加到15%。

阅读更多关于数据中心中断的信息

另外,报告说,中断的时间也越来越长。"在过去五年中,重大公共故障开始和完全恢复之间的差距已经大大拉长,"它说。"2021年近30%的停电时间超过了24小时--与2017年仅有8%的停电时间相比,增长令人不安。"

供电问题历来是数据中心停机的最常见原因,但正常运行时间研究所在2021年的报告中预测,网络问题将成为服务器群停机事件的最常见来源。

2022年的报告支持这一观点,并表示随着支撑企业云部署的数字基础设施的规模和复杂性的增加,停机事件越来越多地归因于网络、软件和系统问题。

"报告说:"近年来,对云服务的使用越来越多,改变了故障的特点。"故障更有可能是由于软件、系统或配置错误造成的--这反映了IT和相关网络的日益复杂。

"这些故障也更有可能影响到许多IT服务和组织,反映了系统的相互依赖性和客户集中使用单一供应商,往往是在单一可用性区域。"

Uptime Institute Intelligence的创始成员和执行董事Andy Lawrence是该报告的共同作者,他说,这种情况将在一段时间内得到改善,但就目前而言,故障将持续存在。

在这一点上,该组织预测--根据过去公开的数据中心停机数据--全球每年至少会发生20起严重的、引人注目的IT停机事件。

劳伦斯说:"随着时间的推移,技术和操作方法都将得到改善。"但目前,故障仍然是客户、投资者和监管机构最关心的问题。运营商最好能够通过严格的员工培训和操作程序来应对挑战,以减少许多此类故障背后的人为错误。"