ITOps领导者求生指南:驾驭无尽事件洪流的关键转型

6 阅读5分钟

面对日益频繁的IT事件和复杂的基础设施,IT运维领导者必须转向AI和自动化,以实现事件管理现代化。通过自动化重复任务、部署生成式AI和利用AI代理,可以提高响应速度、减少人工负担并提升决策效率,确保IT系统韧性。

译自:The essential shift every ITOps leader must make to survive an unrelenting stream of incidents

作者:Ariel Russo

重大IT事件正变得越来越频繁和严重。

创收服务一小时的停机时间可能给大型企业造成10万至24.9999万美元的损失。即使是IDC分析师简报中的这个数字,在考虑客户流失和生产力损失时也可能过低。它也未能考虑到事件管理给一线响应人员带来的日益沉重的负担。

“创收服务一小时的停机时间可能给大型企业造成10万至24.9999万美元的损失……[并且]未能考虑到事件管理给一线响应人员带来的日益沉重的负担。”

鉴于事件数量的不断增加和当今IT基础设施的复杂性,现代事件管理需要一种由AI和自动化支持的方法。没有它,一线工作人员将面临源源不断的下班时间中断。这会侵蚀本应用于休息的时间,增加职业倦怠,并降低恢复能力。

然而,许多组织仍然依赖传统的事件管理,即为更简单、要求不高的时代建立的手动流程。这使得IT运维团队(ITOps)不得不筛选复杂的IT基础设施,寻找根本原因,并忙于重复性任务。

结果是响应时间变慢,但如果组织利用机器来承担更多的繁重工作和手动劳动,他们就能让响应人员处于更好的境地。ITOps团队必须拥抱AI和自动化,以跟上现代事件的数量和IT复杂性。

如何通过AI和自动化实现事件管理现代化

考虑以下四种方法,说明AI和自动化如何改变事件管理工作流程:

1. 自动化重复的低风险响应任务

自动化减少了检测、诊断和解决问题所需的时间,从而降低了事件管理成本。对于SEV 1或SEV 2事件的重复性、低风险任务特别适合自动化,包括通过快速通知相关主题专家来减少响应时间的自动化警报,以及提供上下文、诊断和根本原因分析的自动化操作手册。自动化还可以触发常见的补救措施,例如重启服务或清除缓存。

通过自动跟踪关键指标,例如节省的时间或减少的错误数量,ITOps经理可以为更广泛地采用自动化方案建立业务案例。这对于建立势头和获得高层支持尤为重要。

2. 部署生成式AI能力

生成式AI(Generative AI,简称GenAI)擅长从不同来源查找和总结重要信息。通过这样做,它为事件响应人员节省了大量日常工作时间,否则这些时间可能会花费在筛选日志和指标上。事件分流摘要,包括建议的调查路径,为新来的响应人员提供了快速开始工作所需的知识。这可能包括来自相关先前事件的上下文信息,以便更快地应用有针对性的修复。

GenAI可以检索的其他上下文信息可能包括近期更改、新增或更新的操作手册,这些都可以作为未来响应人员的实时知识库。团队还可以使用GenAI自动从相关聊天记录、日志、行动项和其他数据中创建事件后审查。总而言之,这些能力可以将企业孤岛中的数据解锁,并将其转化为清晰的叙述,以改善沟通和决策。

3. 使用AI代理增加主动性

AI代理也正在改变ITOps领导者的游戏规则,它们能自主完成任务以实现特定目标,使人类团队成员能够提升价值链。虽然GenAI聊天机器人根据提示生成和总结内容,但代理可以独立执行整个工作流程。

它们可以通过搜索操作手册、从相关工具中提取关键信息、评估先前事件并推荐补救措施来主动处理重复性任务和例行事件。至关重要的是,代理超越了“如果-那么”逻辑,能够根据历史和当前上下文从几个可能的选项中选择正确的行动。这意味着ITOps可以更快地行动,团队成员有更多时间专注于战略决策和问题解决。

在AI代理充分发挥潜力之前,领导者需要建立严格的护栏,以最大限度地降低风险,并在复杂或高风险的情况下保持人类的参与。

4. 使用AI代理处理运营物流

组织还可以通过应用AI代理处理运营物流来加强协调。通过将任务委派给代理,人类响应人员可以投入更多时间和精力解决事件,而不是在团队之间进行手动协调。这些任务可以包括为利益相关者起草执行摘要和状态更新,将运营数据呈现到事件渠道,在事件电话会议期间做记录,以及协调工作流程。

AI代理还可以动态地将事件分配给最相关的主题专家。通过将这些功能直接嵌入到Slack等通信工具中,团队可以更高效地协调和解决事件,而无需切换上下文。

让改变持续下去

现代事件管理必须跟上复杂、始终在线的基础设施和源源不断的事件流。现在,优化更快的检测、更智能的优先级排序和简化的补救措施至关重要。由AI和自动化支持的事件管理使这成为可能,它减少了干扰和繁琐工作,改善了决策,并帮助团队更快、更自信地响应。