“自愈”IT来了?HPE研究揭秘AI如何捕捉无声基础设施故障

3 阅读8分钟

HPE研究利用AI训练的时序模型(IT-TSFM)和LLM,旨在检测传统监控易忽略的“灰色故障”,即无声的IT性能退化。这些模型能识别模式、适应季节性变化,提供上下文感知告警,实现主动、自愈的IT运维。目标是减少人工干预,预防重大中断,而非取代SRE,而是增强其能力。

译自:"Self-healing" IT? HPE research explores how AI-trained models can catch silent infrastructure failures

作者:Jennifer Riggins

企业IT复杂性带来的海量数据和噪音,让运维团队难以理解如何优先处理问题并提高可靠性。问题常常被忽视,团队处于持续的高度分类状态,随着环境的增长,系统变得越来越难以管理。

利用基础设施遥测数据训练的模型可以识别指标、日志和事件中的模式。结合大型语言模型(LLM),它们可以更早地检测到异常行为并解释发生了什么——帮助运维团队快速识别哪里发生了变化以及需要调查的地点。

随着AI工作负载扩展了组织必须运行的基础设施数量,系统管理员、DevOps团队和站点可靠性工程师(SRE)难以将孤立的数据、工作流和工具中的信号连接起来。互锁的、时间敏感的变量过多——包括混合云和多云、CPU、内存、网络和磁盘IO指标——传统监控和可观测性工具难以快速解释。结果是告警疲劳、故障排除速度变慢,以及维护系统运行的团队压力越来越大。

利用基础设施遥测数据训练的时序模型可以识别指标、日志和事件中的模式。它们使企业基础设施团队能够从被动转向主动,识别堆栈中可能导致整个系统崩溃的隐患。这为转向更有意义、时间敏感和上下文感知的告警,甚至迈向自主、自愈、预测性维护提供了机会。

“企业确实希望采用更积极主动的方法,以便能够从症状层面捕捉特别关键的问题,并在中断发生之前解决这些问题。”

Phanidhar Koganti慧与(HPE)混合云的资深杰出技术专家,告诉 The New Stack,“企业确实希望采用更积极主动的方法,以便能够从症状层面捕捉特别关键的问题,并在中断发生之前解决这些问题。”

Koganti 和 HPE 刚刚发布的白皮书“超越噪音:迈向自愈自治IT”探讨了这些问题,以及由IT优化时序基础模型(IT-TSFM)驱动的高性能计算环境的自愈策略潜力。

企业是否为AIOps做好了准备?如果它能实现在中断发生之前消除风险的目标,那么它们肯定会做好准备。

未知未知数的昂贵风险

虽然数字各不相同,但据估计,一次中断每分钟至少花费4,000美元——对于各行各业的企业来说,这个成本可能会高得多

但并非只有大规模中断才会让组织付出金钱代价。局部、无声的性能退化可能会导致更高的总体成本。而且这种成本会随着时间的推移而累积,因为它们往往更难检测,检测时间也更长。

正如 dTelecom 所述,系统很少会完全崩溃:“真正的成本来自不确定性。在事件发生期间,团队会花费20%到40%的时间来弄清楚谁受到了影响——哪些用户、哪些区域、哪些服务、哪些数据路径。”

传统的监控和可观测性仪表板会显示这些未知故障、一些已知故障以及大量的告警噪音。但正是未知未知数或“灰色故障”让 Koganti 夜不能寐。

“这些无声的故障通常会逃过人眼,如果这些问题在第二天演变成故障,那将直接影响业务。”他进一步解释说,这些故障往往源于分布式依赖关系的相互关联性,这种关联性会随着企业规模和软件足迹的扩大而扩展。

灰色故障并非一定会导致你的系统今天崩溃,但它可能已经让系统变慢或让你花费额外的金钱。而且它增加了明天系统崩溃的风险。

那么,你的运维团队如何才能找到它们呢?他们又如何才能大规模地对其进行评估、补救甚至修复呢?

灰色故障需要特异性

通用时序模型无法检测到这些灰色故障,因为它们没有针对IT的细微差别或每个企业基础设施的特定细微差别进行训练。正如白皮书所解释的,通用模型无法理解季节性行为和IT环境特有的相互依赖行为中的细微差别。

给出的一些以IT为中心的例子包括:

  • 晚上9点的CPU峰值可能是一个正常的计划备份,也可能是一次异常的分布式拒绝服务(DDoS)攻击。
  • 服务器内部风扇转速的升高是预期行为,但如果它在没有相应温度升高的情况下发生,则成为异常。

“即使是我们的笔记本电脑,也有很多应用程序在运行,其中一些写得不好。会出现小的内存泄漏故障,” Koganti 举了另一个常见例子。“它们发生得如此缓慢,以至于在您的日常使用中,您根本不会注意到它们,直到它们达到某个特定阈值。”

这可能是由于卡顿引起的人为挫败感,然后项目或整个笔记本电脑突然崩溃而没有保存。

“补救措施不必非常复杂,”他继续说道。对于这种情况,一个简单的重启可能就足够了,“因为业务连续性是首要目标。补救与永久性解决问题是不同的。”它通常会为你争取时间来找到永久性的解决方案。

在企业领域,这些例子很快变得越来越相互依赖和复杂。

Koganti 举例说,零售组织需要了解白天发生的任何行为异常,然后在商店关门时进行补救,这样,业务连续性就再次得到了维护。

目前,人工操作员倾向于设置一刀切的阈值,例如,如果CPU超过90%,就呼叫值班人员。但 Koganti 指出,CPU在工作日保持在80%到90%之间是正常的,而周末保持在70%到80%之间则是异常的。当然,除非是在12月的电子商务网站,那时可能需要为整个月预置更多的CPU。

这种季节性是关键。

Koganti 解释说,IT优化时序基础模型(IT-TSFM)的目标是设置自适应阈值,“通过对一整天、甚至一周或一个月内发生的事情进行彻底分析,尝试在症状层面捕捉灰色故障,以识别是否存在任何可能导致第二天中断的缓慢、无声故障。”

IT优化时序基础模型(IT-TSFM)的特性以及其交付的成果

时序指标的特性以及IT优化时序基础模型(IT-TSFM)所交付的成果。

如果——或者更可能,当——这种情况发生时,它既关乎向运维团队发出警报,也关乎补救并最终解决问题。这种新颖模型将标记出的一些常见问题包括:

  • 僵尸服务
  • 用户体验下降
  • 两种资源之间的争用,例如:高磁盘I/O等待 + 正常CPU
  • 安全问题
  • 延迟问题

时序数据不断演变的模式以及现代企业基础设施的复杂性,使得人类几乎不可能检测和响应它们——尤其是在当前由AI广泛采用所驱动的复杂性增加的背景下。

AI会取代SRE吗?

随着时间的推移,这些针对IT的时序基础模型可以理解您独特的基础设施模式,并开始建议,甚至自动修复其中一些无声故障。最终,企业可以过渡到一些主动的、自愈的IT环境。

使用IT-TSFM和智能体AI的从可观测性到修复的管道

使用IT-TSFM和智能体AI的从可观测性到修复的管道。

但是,正如软件开发生命周期中所有与AI相关的事物一样,仍然需要人工操作员。这应该使他们能够以更全面的方式管理漏洞流程,同时也能更早地发现更高级的问题。

“假设人工操作员告诉系统:本周,我刚刚安装了一个全新的应用程序,我希望你将这种行为视为正常行为,如果你在各种指标中看到任何漂移,请尝试主动分析并在发现重大偏差时提醒我,” Koganti 说。

因为这是一个新应用程序,即使是小的漂移也需要被检测到,“以便在中断发生之前在系统层面捕获问题。”

以IT-TSFM为中心的智能体AI堆栈

以IT-TSFM为中心的智能体AI堆栈。

顾名思义,这种针对IT的时序模型旨在作为企业IT知识库的基础,用于大型语言和推理模型,并进一步用于智能体AI。

这可能会随着主动和自主修复能力的提高而增加。

这个用于IT的时序基础模型是与HPE 实验室合作开发的,作为其庆祝在计算领域开创性进步60周年的一部分发布。

深入了解IT优化时序基础模型背后的新颖技术,立即阅读白皮书:“****超越噪音:迈向自愈自治IT”。