AIOps 新报告发布,七个降低 IT 复杂性的方法

1,899

近日,Constellation Research发布了一份报告,指出了AIOps应该如何来改善IT运营状态,并试图解决多年来存在的意大利面条架构难题。

报告撰写者表示::“IT领导人在提高效率方面面临着巨大的挑战,因为他们已经添加了太多的工具,但很多工具都是孤岛式的。除了零散的数据外,许多工具对同一事件产生了关键的警报,从而产生了'警报疲劳'。而AIOps是应用AI来增强IT运营,这与其他人认为的使用IT运营来提高AI,正好是想法的。”

作为一个试图提高IT团队生产力的工具,该报告总结了七个使用AIOps来降低IT复杂性的方法:

  • 减少IT噪音和警报疲劳:如今,IT团队被虚假警报以及单个事件警报所产生的噪音所淹没,铺天盖地的噪音会造成警报疲劳,而AIOps可以帮助减少80%到90%的噪音。
  • 更快的根因分析:在多云或混合环境中,要确定导致事件的根因是非常困难的,需要将整个堆栈中同一时间段内发生的日志、指标和痕迹拼凑起来。而AIOps有助于阐明异常现象的起源,同时显示从事件发生时的事件时间线。
  • 加强容量规划和资源利用:通过数据驱动、AI辅助的映射,将工作负载部署在服务器、实例和机器的正确组合上。如果一个特定的组合没有工作,支持实时调整,实时改变,直到它按预期工作,无需人工干预。
  • 对事件进行关联的能力:AIOps可以将相关的遥测信息组合在一起,包括日志、指标和追踪。提供在同一仪表板上同时查看来自各种工具的相关遥测信息的能力,帮助运维人员看到系统中发生的事情,并快速确定根因。
  • 背景/警报/事件的丰富性: 一旦发生事件,ITOps团队需要做的第一步就是尽快弄清楚事件的背景(发生了什么、什么时候、为什么)。而一个正确实施的AIOps解决方案将为事件或警报添加上下文,而不是只通知相关支持人员。
  • 异常情况监测: AIOps应该能够分析所有数据并找出规律。
  • 自愈和自动化能力:一个好的AIOps解决方案应该有自动化,或者通过API与自动化供应商集成,以启动补救措施。例如,如果有CPU或内存过度使用,重启或杀死一些进程可能会解决这些问题,而不需要创建一个警报,引发一个事件,并浪费IT资源来调查和补救该事件。

对于规模、时间和预算有限的IT团队来说,如果要对系统所有的报警保持关注是难以实现的,而AIOps的方式可以帮助管理日常问题,让运维人员将注意力更多地集中在业务上。