如何用AIOps管理你复杂的IT环境

138 阅读6分钟

我们能否通过机器学习和人工智能来管理IT运营,及时预测重大破坏性事件,并在服务中断发生之前解决它,或者用算法来运行IT运营会不会太复杂?答案是谨慎的,是的,我们可以用算法运行IT运营并进行预测。这就是原因。随着人工智能和机器学习(ML)技术在这一特殊领域的追赶,日益增长的IT复杂性产生了更有效、更智能地管理各种业务应用和IT基础设施的需求和压力。因此,这种需求的答案当然是人工智能与机器学习一起,或者换句话说,IT运营的人工智能(AIOps)。

在这篇关于AIOps的第一篇博文系列中,我们将带你深入了解什么是AIOps,它如何提供无缝的企业IT服务以保持你的灯光,以及如何使用人工智能、机器学习和数据科学原理来实现这一目标。这篇文章只是关于AIOps的第一个放大的鸟瞰图。在接下来的博文中,我们将更多地阐述这种方法背后的技术背景/细节。

Main pillars of AIOps
AIOps的主要支柱

TOIL正在引出IT团队

当工作与运行生产服务联系在一起时,我们称之为TOIL,它往往是手动的、重复的、可自动化的、战术性的、缺乏持久价值的,而且是随着服务增长而线性扩展的1。当你的IT团队必须保持对大量数据、警报和任务的关注时,TOIL会耗尽他们的精力和时间。企业每天可能有多达1000万个事件2。因此,大量的数据、流程和监控对业务的影响之间日益脱节,这就需要一种新的方法来管理和监控你的IT基础设施和服务。这里就是AIOps发挥作用的地方。

可观察性。对你的应用和服务的深度可视性

在我们进一步深入研究AIOps之前,有必要说明的是,对IT基础设施和系统状态的良好观察是必须的。能够在你的人工智能和机器学习模型中插入正确的数据是很重要的。为此可能需要一些基本的IT基础设施。我们将在下一篇关于以领域为中心和与领域无关的AIOps平台的博文中进一步详细讨论这个问题。这里的主要信息是。AIOps需要对IT基础设施的每个方面以及与之相连的所有应用有良好的可观察性和可见性,以捕捉和监测整个IT环境中IT服务和应用之间的复杂互动。一旦某个组件缺失,没有被监控或观察到,当它停止正常工作时,要找到根本原因就成了一个艰巨的挑战,因为你在那个部分没有眼睛和耳朵。既然如此,让我们看看AIOps是如何工作的。

IT Operations Management maturity model
IT运营管理成熟度模型

IT运营管理的智能化、预测性方法

我们可以将AIOps定义为在IT运营中使用人工智能、机器学习和自动化,并通过尽量减少人类操作员的人工干预来改变IT运营管理的方式。其目的并不是要把人从循环中剥离出来,相反,它是为了帮助人类操作员管理IT运营中不断增加的复杂性。IT的复杂性有三个方面。

  • 数量:IT基础设施和业务应用产生的数据呈指数级增长。
  • 种类:不同类型的数据,如指标、日志、事件、痕迹、文件。
  • 速度:数据产生的速度正在迅速增加。

要想在重大事件和压倒性的警报面前保持领先,需要有预测性的、自动化的统计工具来解决IT复杂性的三个方面所带来的挑战。人的能力本身并不能为此提供适当的解决方案。

AIOps解决方案就是为了实现这一目标。我们可以将不同平台/供应商的AIOps解决方案描述为四个原则。

  • **高级数据处理和分析:**摄取大数据,对数据流进行实时分析,对存储的数据进行历史分析,以训练人工智能和ML模型。

  • 拓扑数据分析:映射和发现整个IT领域的所有IT资产和应用。

  • **关联事件和其他相关数据:**将时间和IT网络拓扑结构映射到集群相关事件。此外,通过不断学习数据的行为方式,发现模式并预测事件或事故。相关性对于自动进行有效、高效的IT服务问题和事件的根本原因分析非常重要。

  • **自动补救:**在用人工智能和ML不断监测IT环境的同时,如果发生异常行为,出现IT问题,AIOps会向人类操作员推荐某些行动方案,或者如果启用,会触发自动补救措施,即时解决这个问题。

An example workflow of AIOps with Anomaly detection system
AIOps与异常检测系统的工作流程示例。

异常检测是AIOps的主力军

AIOps的基本动态是,机器学习算法可以检测和预测可能导致IT服务问题的异常情况,如服务中断或重大破坏性事件。此外,基于预测和先进的数据处理,可以创建精确得多的动态阈值、规则、统计基线、事件和警报。在以后的一系列博文中,我们将更深入地研究这些先进的、复杂的过程是如何实现的。

总结我们对AIOps的鸟瞰图

在这篇博文中,我简要介绍了我们如何利用AI和机器学习算法来管理IT运营。接下来的博客系列将更深入地探讨我们在这里讨论的每个概念,并提供一个更多的技术概述。因此,请继续关注并加入我们的AIOps之旅吧

**Akif Baser**是一位多学科的工程师,热衷于人工智能和计量经济学的研究和开发。

更多关于此主题的内容