AI和Agent联手,告别凌晨三点惊醒

55 阅读5分钟

人工智能和自动化正在重塑工程师的on call体验,通过在事件发生前、期间和之后提供支持,减少焦虑、处理例行事务并将事件转化为进步,从而实现更健康的团队和更智能的系统。

译自:How AI and Agents Are Slashing 3 A.M. Wakeups

作者:Hannah Culver

对于工程师来说,随时待命(on call)长期以来都是一种必经的考验,其特点是深夜警报、睡眠不足以及倦怠的风险。但凌晨3点救火并不是工程师成为工程师的原因。

随着数字系统变得越来越复杂,压力只会越来越大。好消息是,人工智能和 Agentic 自动化正在悄然重塑随时待命体验的每个阶段,为 IT 运维团队提供最需要的真正缓解。

事件发生前:人工智能对抗随时待命焦虑

待命轮班前的焦虑可能与轮班本身一样令人疲惫,尤其是对于经验不足的工程师而言。借助人工智能浮现上下文、提供资源和历史数据,甚至处理分流和根本原因分析,工程师可以充满信心地开始他们的轮班,因为他们知道自己不会在凌晨 3 点走进未知领域。其结果是减少了轮班前的恐惧、更多的安心,以及在第一个警报触发之前更强的支持感。

Agentic AI 还解决了经典难题:排班。传统的排班通常是手动的,并且保持 PTO、节假日或紧急覆盖的最新状态可能是一个挑战。如今,AI 代理可以解决排班冲突、确保无缝覆盖并自动适应最后一刻的变化,这意味着团队在事件发生之前就做好了更充分的准备

然而,真正的转变发生在事件发生时,每一秒都至关重要。

事件期间:人工智能处理例行事务,工程师处理未知事务

事件响应是随时待命的核心,这也是人工智能和代理产生最大影响的地方。

在仪表板之间跳转、手动分流警报以及从分散的来源拼凑上下文的日子已经一去不复返了。现在,人工智能和自动化在各种事件中都发挥着至关重要的作用:

事件类型人工智能和代理如何提供帮助
充分理解的检测、分流和修复端到端,无需唤醒任何人。
部分理解的分流、运行诊断并提供修复选项以供人工审查。
新的或新颖的分流警报、浮现上下文并充当记录员,使人们能够专注于创造性和复杂的解决问题。
  • 充分理解的事件: 这些是具有已知解决方案的重复出现的问题。在这里,自动化和人工智能可以从头到尾处理检测、分流和修复。系统识别模式、应用修复并关闭循环,而无需唤醒任何人。对于随时待命的团队来说,这意味着更少的中断和更安宁的夜晚。
  • 部分理解的事件: 有时,系统知道哪里出了问题,但不确定最佳修复方法。在这些情况下,人工智能和自动化会处理繁重的工作:分流事件、运行诊断并提供多个修复路径。响应者审查选项,选择最佳行动方案,在某些情况下,人工智能甚至可以从那里执行响应。这种伙伴关系减少了认知负荷并加快了解决速度,同时仍使人类保持控制。
  • 新的或新颖的事件: 当发生真正意想不到的事情时,人类的专业知识是不可替代的。但即使在这些情况下,人工智能和代理也是宝贵的队友。他们会分流传入的警报、浮现相关的上下文,并通过实时捕获关键操作和决策来充当记录员。这种支持使工程师能够专注于创造性地解决问题,而不是管理开销。

在所有这些过程中,协作工具和集成使每个人保持一致。与以往相比,现代的随时待命体验更加互联,也更加井井有条。

但故事并没有在事件解决时结束。事实上,这就是改进的下一个篇章开始的地方。

事件之后:人工智能将每个事件转化为进步

事件后审查对于学习和改进至关重要,但它们通常既耗时又不一致。

人工智能正在改变这一点。

人工智能起草的事件后审查现在可以捕获发生了什么、总结关键操作并突出显示经验教训,而无需手动记录或无休止的会议。这意味着工程师不再需要创建脚手架,而是可以专注于意想不到的结果或新颖的学习。

除了文档之外,人工智能驱动的洞察力还可以识别重复出现的模式、推荐流程改进,甚至建议新的自动化,以防止将来发生类似的事件。结果是一个良性循环:每个事件不仅使系统更强大,而且还使团队更具弹性,而所需的手动工作更少。这是一个让你每次完成时都能让随时待命生活变得更好的过程。

随时待命的未来:更健康的团队,更智能的系统

随时待命不必成为恐惧的根源。

借助人工智能和 Agentic 自动化,从业者正在工具中获得真正的盟友,这些工具可以处理重复性、例行性和充分理解的任务,同时使人们能够专注于他们最擅长的事情。随时待命的未来是更健康的团队、更快的响应以及持续改进的文化

人工智能驱动的运营时代已经到来,它正在改善所有在前线人员的生活。