“自愈”IT来了？HPE研究揭秘AI如何捕捉无声基础设施故障HPE研究利用AI训练的时序模型（IT-TSFM）和LLM，

HPE研究利用AI训练的时序模型（IT-TSFM）和LLM，旨在检测传统监控易忽略的“灰色故障”，即无声的IT性能退化。这些模型能识别模式、适应季节性变化，提供上下文感知告警，实现主动、自愈的IT运维。目标是减少人工干预，预防重大中断，而非取代SRE，而是增强其能力。

译自："Self-healing" IT? HPE research explores how AI-trained models can catch silent infrastructure failures

作者：Jennifer Riggins

企业IT复杂性带来的海量数据和噪音，让运维团队难以理解如何优先处理问题并提高可靠性。问题常常被忽视，团队处于持续的高度分类状态，随着环境的增长，系统变得越来越难以管理。

利用基础设施遥测数据训练的模型可以识别指标、日志和事件中的模式。结合大型语言模型（LLM），它们可以更早地检测到异常行为并解释发生了什么——帮助运维团队快速识别哪里发生了变化以及需要调查的地点。

随着AI工作负载扩展了组织必须运行的基础设施数量，系统管理员、DevOps团队和站点可靠性工程师（SRE）难以将孤立的数据、工作流和工具中的信号连接起来。互锁的、时间敏感的变量过多——包括混合云和多云、CPU、内存、网络和磁盘IO指标——传统监控和可观测性工具难以快速解释。结果是告警疲劳、故障排除速度变慢，以及维护系统运行的团队压力越来越大。

利用基础设施遥测数据训练的时序模型可以识别指标、日志和事件中的模式。它们使企业基础设施团队能够从被动转向主动，识别堆栈中可能导致整个系统崩溃的隐患。这为转向更有意义、时间敏感和上下文感知的告警，甚至迈向自主、自愈、预测性维护提供了机会。

“企业确实希望采用更积极主动的方法，以便能够从症状层面捕捉特别关键的问题，并在中断发生之前解决这些问题。”

Phanidhar Koganti，慧与（HPE）混合云的资深杰出技术专家，告诉 The New Stack，“企业确实希望采用更积极主动的方法，以便能够从症状层面捕捉特别关键的问题，并在中断发生之前解决这些问题。”

Koganti 和 HPE 刚刚发布的白皮书“超越噪音：迈向自愈自治IT”探讨了这些问题，以及由IT优化时序基础模型（IT-TSFM）驱动的高性能计算环境的自愈策略潜力。

企业是否为AIOps做好了准备？如果它能实现在中断发生之前消除风险的目标，那么它们肯定会做好准备。

未知未知数的昂贵风险

虽然数字各不相同，但据估计，一次中断每分钟至少花费4,000美元——对于各行各业的企业来说，这个成本可能会高得多。

但并非只有大规模中断才会让组织付出金钱代价。局部、无声的性能退化可能会导致更高的总体成本。而且这种成本会随着时间的推移而累积，因为它们往往更难检测，检测时间也更长。

正如 dTelecom 所述，系统很少会完全崩溃：“真正的成本来自不确定性。在事件发生期间，团队会花费20%到40%的时间来弄清楚谁受到了影响——哪些用户、哪些区域、哪些服务、哪些数据路径。”

传统的监控和可观测性仪表板会显示这些未知故障、一些已知故障以及大量的告警噪音。但正是未知未知数或“灰色故障”让 Koganti 夜不能寐。

“这些无声的故障通常会逃过人眼，如果这些问题在第二天演变成故障，那将直接影响业务。”他进一步解释说，这些故障往往源于分布式依赖关系的相互关联性，这种关联性会随着企业规模和软件足迹的扩大而扩展。

灰色故障并非一定会导致你的系统今天崩溃，但它可能已经让系统变慢或让你花费额外的金钱。而且它增加了明天系统崩溃的风险。

那么，你的运维团队如何才能找到它们呢？他们又如何才能大规模地对其进行评估、补救甚至修复呢？

灰色故障需要特异性

通用时序模型无法检测到这些灰色故障，因为它们没有针对IT的细微差别或每个企业基础设施的特定细微差别进行训练。正如白皮书所解释的，通用模型无法理解季节性行为和IT环境特有的相互依赖行为中的细微差别。

给出的一些以IT为中心的例子包括：

晚上9点的CPU峰值可能是一个正常的计划备份，也可能是一次异常的分布式拒绝服务（DDoS）攻击。
服务器内部风扇转速的升高是预期行为，但如果它在没有相应温度升高的情况下发生，则成为异常。

“即使是我们的笔记本电脑，也有很多应用程序在运行，其中一些写得不好。会出现小的内存泄漏故障，” Koganti 举了另一个常见例子。“它们发生得如此缓慢，以至于在您的日常使用中，您根本不会注意到它们，直到它们达到某个特定阈值。”

这可能是由于卡顿引起的人为挫败感，然后项目或整个笔记本电脑突然崩溃而没有保存。

“补救措施不必非常复杂，”他继续说道。对于这种情况，一个简单的重启可能就足够了，“因为业务连续性是首要目标。补救与永久性解决问题是不同的。”它通常会为你争取时间来找到永久性的解决方案。

在企业领域，这些例子很快变得越来越相互依赖和复杂。

Koganti 举例说，零售组织需要了解白天发生的任何行为异常，然后在商店关门时进行补救，这样，业务连续性就再次得到了维护。

目前，人工操作员倾向于设置一刀切的阈值，例如，如果CPU超过90%，就呼叫值班人员。但 Koganti 指出，CPU在工作日保持在80%到90%之间是正常的，而周末保持在70%到80%之间则是异常的。当然，除非是在12月的电子商务网站，那时可能需要为整个月预置更多的CPU。

这种季节性是关键。

Koganti 解释说，IT优化时序基础模型（IT-TSFM）的目标是设置自适应阈值，“通过对一整天、甚至一周或一个月内发生的事情进行彻底分析，尝试在症状层面捕捉灰色故障，以识别是否存在任何可能导致第二天中断的缓慢、无声故障。”

IT优化时序基础模型（IT-TSFM）的特性以及其交付的成果

时序指标的特性以及IT优化时序基础模型（IT-TSFM）所交付的成果。

如果——或者更可能，当——这种情况发生时，它既关乎向运维团队发出警报，也关乎补救并最终解决问题。这种新颖模型将标记出的一些常见问题包括：

僵尸服务
用户体验下降
两种资源之间的争用，例如：高磁盘I/O等待 + 正常CPU
安全问题
延迟问题

时序数据不断演变的模式以及现代企业基础设施的复杂性，使得人类几乎不可能检测和响应它们——尤其是在当前由AI广泛采用所驱动的复杂性增加的背景下。

AI会取代SRE吗？

随着时间的推移，这些针对IT的时序基础模型可以理解您独特的基础设施模式，并开始建议，甚至自动修复其中一些无声故障。最终，企业可以过渡到一些主动的、自愈的IT环境。

使用IT-TSFM和智能体AI的从可观测性到修复的管道

使用IT-TSFM和智能体AI的从可观测性到修复的管道。

但是，正如软件开发生命周期中所有与AI相关的事物一样，仍然需要人工操作员。这应该使他们能够以更全面的方式管理漏洞流程，同时也能更早地发现更高级的问题。

“假设人工操作员告诉系统：本周，我刚刚安装了一个全新的应用程序，我希望你将这种行为视为正常行为，如果你在各种指标中看到任何漂移，请尝试主动分析并在发现重大偏差时提醒我，” Koganti 说。

因为这是一个新应用程序，即使是小的漂移也需要被检测到，“以便在中断发生之前在系统层面捕获问题。”

以IT-TSFM为中心的智能体AI堆栈

以IT-TSFM为中心的智能体AI堆栈。

顾名思义，这种针对IT的时序模型旨在作为企业IT知识库的基础，用于大型语言和推理模型，并进一步用于智能体AI。

这可能会随着主动和自主修复能力的提高而增加。

这个用于IT的时序基础模型是与HPE 实验室合作开发的，作为其庆祝在计算领域开创性进步60周年的一部分发布。

深入了解IT优化时序基础模型背后的新颖技术，立即阅读白皮书：“****超越噪音：迈向自愈自治IT”。