别再浪费时间处理事件了,交给AI!

53 阅读6分钟

事件管理工程师常因处理低优先级事件而疲惫,影响重大事件响应。组织应利用AI和自动化工具,优先处理高优先级事件。通过对事件分级,自动化低级别任务,AI可降噪、分类和总结事件,从而释放工程师精力,提升效率和服务可靠性。

译自:Stop Chasing Low-Stakes Incidents: Let AI Do It

作者:Mandi Walls

事件管理工程师们的工作非常繁忙,而当他们被迫花费工作时间来解决大量但低优先级的事件时,这种“繁忙”只会加剧。这种持续工作量的缺点是,当发生重大事件时,事件管理团队已经疲惫不堪、压力巨大,并且可能无法及时响应。这些因素加在一起会延误事件的解决,从而损害收入。

然而,组织可以采取另一种模式来减少工程师的手动操作。

人工智能和自动化支持的事件管理工具正变得越来越普遍,并且可以打破对持续的、低优先级的事件进行手动响应的循环。为了避免任何业务中断,至关重要的是,组织必须快速识别哪些流程和工作流程可以通过人工智能和自动化安全地解决,哪些仍然需要人工主导。

理解事件优先级

第一步是深入了解事件的分类和优先级排序。行业标准方法是根据优先级对事件进行分级分类。这通常范围从 P1 到 P5,但也可能是 SEV-1 到 SEV-5(其中 SEV 代表严重性)。P1 被认为是最具潜在破坏性的事件,而 P5 则位于等级的底部。

从最严重到最不严重,事件必须根据其对组织和客户的影响进行分类。最重要的是,在对事件进行分类时,组织必须始终假设最坏的情况,以确保事件得到充分解决。

  • P1 应该为需要公开通知并与执行团队联络的关键问题保留。这些事件会导致大规模的客户影响,包括严重的功能障碍,违反 SLA。这些最高优先级的事件也可能暴露客户数据,必须迅速控制。
  • 同样,P2 是影响许多客户使用产品的能力的关键系统问题。这些可能包括 Web 应用程序的不可用或大多数或所有用户的性能下降。
  • P3 事件是客户的小问题,需要服务所有者的立即关注。如果这些问题未得到处理,它们可能会升级为 P2。
  • P4 用于表示需要采取行动但不影响客户使用产品的能力的小问题。这些可能是性能问题、单个主机故障或延迟的作业失败。
  • 最后,P5 是优先级最低的事件。这些包括外观问题或错误,但不影响客户使用产品的能力。

P1 和 P2 代表重大事件。每当发生其中一种情况时,必须默认采用人工主导的修复,并且必须触发包含人工干预的全面事件响应流程,以避免严重的声誉或财务损失。然而,工程师通常花费时间响应低严重性事件,这些事件仍然需要手动干预,例如在问题解决之前提出工单。这些手动工作流程为组织引入人工智能和自动化提供了主要机会,使工程师能够专注于高优先级工作。

自动化和人工智能的优势

虽然人工智能和自动化能力在运营管理工具和平台中变得越来越普遍,但它们必须为工程师带来有意义的利益才能交付价值。人工主导的修复将始终在事件管理中发挥作用,特别是对于严重和高优先级的事件。但是,运营管理工具可用于停止工程师每次发生 P5 时手动追逐 P5 的循环。

当检测到问题时,可以使用 AI 工具通过抑制重复或低优先级的警报来减少响应者的噪音。这确保了工程师能够完全专注于可操作的事件,从而使他们能够战略性地将时间集中在更高优先级的修复上。领先的运营管理平台还包括人工智能运营(AIOps)功能,以自动化每个事件的早期阶段,包括分类、降噪、警报分组和变更关联。减轻工程师的这些工作流程负担可以直接减少警报疲劳,同时通过更精简的事件检测来改善运营。

自动化工具还可以用于改善事件响应和修复。例如,可以将 Runbook 与 AI 系统相关联,以便在没有人为干预的情况下解决常见问题,例如重新启动失败的服务或扩展资源。越来越多的代理 AI 工具的可用性也将有助于减少工程师的工作量,自主管理例行任务以减少运营成本并加快事件解决

自动化还可以用于增强组织整个堆栈中的可观测性。该过程提供了一个额外的系统来分析促成因素,并帮助工程师识别多个系统之间的关联。工程师还可以通过链接日志、跟踪和指标中的信号来使用 AI 工具进行分类。总之,这些功能可以帮助工程师快速查明事件的促成因素,而无需手动搜索系统的多个部分。

AI 工具甚至可以在事件后学习回顾期间带来价值。生成式 AI(GenAI)功能支持事件摘要的内容创建,或生成事件时间线以加快事后分析。

所有这些用例都证明了 AI 和自动化在支持工程师以更节省时间的方式解决事件方面的价值。

释放您的工程师来创造价值

人工智能和自动化是运营管理的未来。简而言之,不能指望工程师手动解决整个事件管理管道中的问题。他们需要可以减少其繁重工作的工具的支持。

通过将监控、故障排除、扩展和例行运营任务转移到 AI,组织将帮助其工程师减少救火时间,而将更多时间专注于高价值工作。这种转变减少了倦怠,提高了服务可靠性并提高了运营效率,同时还有助于改善工程师的日常体验。