文章探讨了AI代理如何通过自动化、优化事件处理和提升运营效率来革新SRE角色。SRE将转变为AI的监督者,摆脱繁琐工作,专注于创新和增长。
译自:The agentic revolution: A new vision for SREs
作者:Mandi Walls
站点可靠性工程师 (SRE) 不再是疲惫的 IT 领导者事后才考虑的角色。他们在确保数字服务大规模可靠运行方面发挥着关键作用。但随着复杂性增加和事件量增长,SRE 团队正因手动流程而疲于奔命,这降低了他们对组织的价值。
正是在这里,AI 代理可以帮助 SRE 团队摆脱被动响应的恶性循环。当战略性部署时,代理可以使团队摆脱繁重工作,主动提升运营效率和韧性。通过自动提供上下文、执行诊断和修复,并生成自我更新的运行手册,AI 代理使 SRE 能够将精力集中在最关键的事项上。
SRE 与 DevOps
SRE 仍然是一个经常被误解的角色。它不能与 DevOps 互换,而是将工程学原则引入运维,以提高可靠性和正常运行时间。SRE 团队的产出和成功可以通过自动化可重复任务的能力得到提升。
组织可以通过多种方式将 SRE 融入 IT 运维。可能有一个集中部门为整个组织提供服务。工程团队中可能嵌入了一两个 SRE。或者 SRE 可能会作为顾问,按“按需”提供服务。在某些情况下,甚至可能鼓励开发人员学习 SRE 技能。
无论采用何种模式,一个持续的挑战都威胁着 SRE 的价值。站点可靠性工程,像一般的 IT 运维一样,正在低效工具和手动流程的重压下苦苦挣扎。
优化 SRE 工作流程
为了减轻这种运营负担,许多 SRE 已经在使用生成式 AI (GenAI)。虽然 GenAI 可以加速事件解决,但它仍然需要人类专家的输入。团队不只是想要 AI 助手。他们想要 AI 代理,SRE 可以将低风险、繁重的工作完全卸载给它们。随着 AI 代理的普及,SRE 将演变为新型数字劳动力的管理者,除了最复杂或新颖的问题外,所有任务都将由代理代劳。
代理式 AI 在 SRE 实践中会是什么样子?
考虑一下 AI 代理如何为调查人员提供有用的上下文信息,以便他们深入研究。这可能包括涉及相同服务的先前已解决事件,以便立即突出过去如何修复类似问题,包括响应者的备注。代理可以进一步增强 SRE 事件响应者的上下文,通过包含不同服务中相关活动事件的信息,这将为 SRE 提供关于事件范围和任何潜在依赖关系的关键实时信息。
利用这些信息,AI 代理可以更进一步,建议问题源于何处,以及最近的配置或其他更改是否可能是根本原因。最有效的代理式工具将不断从 SRE 的反馈和成功的修复中学习,使 AI 代理随着时间的推移变得更智能、更复杂。
接下来的步骤
一旦问题被诊断并提供上下文,修复就是 AI 代理可以优化的下一个阶段。
对于低风险、已充分理解且具有明确已知解决方案的问题,代理可以在没有任何人工输入的情况下进行分类和修复。SRE 需要做的只是审查事后报告,以确保其正确性并检查任何潜在的改进。另一方面,新颖或重大事件将需要 SRE 来指导调查并制定自己的修复计划。在这种情况下,代理的价值在于自动收集有用的上下文信息并回答任何问题。
介于两者之间的是部分理解的事件,它们很熟悉,但通常有多种可能的原因或解决方案。在这种情况下,SRE 代理将首先将警报与历史操作数据和实时信号进行交叉引用。它可能会促使 SRE 运行进一步的诊断,或者自动提供这些诊断,以便 SRE 在到达时有多种可能的原因可供考虑。然后,AI 代理将建议可能的修复步骤,进一步减少手动工作和行动时间。
这种修复的结果以及工程师的任何反馈,将有助于生成一个自我更新的运行手册,其中包含哪些行动效果最好。这种持续学习的方法有助于防止重复出现的问题,并以更少的人力实现更快的解决。
入门
为了从 AI 代理中获得最大价值,管理者必须谨慎对待这项技术的定位方式。管理者需要为 SRE 提供数据安全、输出验证和工作流程创建等领域的适当培训。最好的系统将是供应商无关的,以便更好地从整个 IT 环境中获取实时信息,并能够访问尽可能多的历史运营数据。
正确实施带来的好处可能是变革性的。在适当的情况下,AI 代理可以更快地解决事件,减少 SRE 的繁重工作和职业倦怠,并以人类专家可能无法发现的方式主动优化流程。最重要的是,这意味着 SRE 可以专注于真正重要的工作:支持创新和增长。