AI 代理在 ITOps 领域日益普及,能处理复杂工作流并减轻 IT 团队压力。然而,AI 并非万能,需结合人类智慧。将 AI 的速度与人类的创造力相结合,可实现卓越运营。成功的关键在于治理、以人为本、安全措施、透明度和持续优化。AI 应被视为同事而非工具,以最大化 ROI。
译自:5 Ways To Transform ITOps With a Human and AI Agent Model
作者:Mandi Walls
AI 运维的新时代已经到来。研究 显示,超过一半 (51%) 的全球公司已在其组织中部署了 AI 代理,而超过三分之一 (35%) 的公司计划在未来两年内这样做。该技术将帮助他们超越传统的自动化,管理复杂的多步骤工作流程,并减轻 IT 团队的压力。
但 AI 并非万能药。它必须应用于正确的用例,并与人类人才相结合,才能实现投资回报率 (ROI)。这种模式使组织能够利用 AI 的速度、可扩展性和处理能力,同时结合人类的创造力、上下文、协作和判断力。成功的关键在于将合适的资源匹配给合适类型的工作。
AI 如何改变游戏规则
传统的 IT 运维 (ITOps) 方式已不再适用。静态的运行手册、手动分诊和被动的事件响应 是为技术世界设计的,而如今数字体验对客户体验至关重要。现在,任何潜在的故障或宕机都可能意味着失去另一位客户。
日益增长的企业数字化也为这些事件和宕机创造了更多机会。分布式、混合云环境、微服务、API 和容器化工作负载带来了巨大的复杂性。更新几乎持续不断地发布,每个新服务都会产生新的依赖关系。难怪才华横溢的团队因警报疲劳和工作满意度下降而苦苦挣扎,因为他们无法专注于创新项目,却不得不疲于应对持续不断的事件。
AI 代理可以改变这些 ITOps 流程。代理能够自主、智能地处理繁重的工作,让 ITOps 团队专注于创新和关键任务的解决。但代理的功能远远超出了传统自动化。我们谈论的是能够分析实时遥测数据以解决问题、适应新情况并做出明智决策的、具备上下文感知能力的自主系统。这些代理不仅仅是为了完成狭窄的任务而设计。它们旨在实现设定的目标,并能够管理复杂的工作流程来实现这些目标,在过程中不断学习和改进。
最重要的是,代理可以在高风险情况下与人类协作。正是这种人与代理的结合,有潜力彻底改变 ITOps。
人在回路中
通过将人类人才与 AI 代理相结合,组织可以获得两全其美的优势。AI 可以处理重复性、数据密集型和时间敏感性任务,例如解决重复性警报、分类事件、动态调整系统容量以及预测和修复潜在故障。ITOps 团队提供机器无法比拟的上下文理解和协作、创造性的问题解决方法和战略监督。人类在模糊的情况下做出判断,并确保任何自动化操作都符合业务优先级。
这种新的动态使人力资源能够专注于创新和构建更具弹性的架构。它还将创造一个新的角色:AI 监督员,负责对代理进行微调、配置并将它们集成到工作流程中。这是实现卓越运营的途径。事件解决速度更快,团队的辛劳减少,ITOps 团队有更多时间专注于创新和运营改进。
开始人机协作的五个步骤
建立人机团队不仅仅是按下开关那么简单。成功需要仔细的规划、正确的治理和安全措施,并持续的反馈。请考虑以下五个步骤:
1) 处理治理
AI 至关重要,不能仅被视为技术或工程项目。它是一项跨职能的优先事项,需要通过专门的首席 AI 官或治理委员会来明确所有权。代理也需要明确的参数。哪些任务需要人工批准,哪些可以信任机器?一旦出现问题,应该有明确的问责制。在此阶段,使 AI 计划与公司伦理、安全、隐私和合规政策保持一致也很重要。
2) 采取以人为本的方法
AI 代理应该支持,而不是边缘化你的 ITOps 团队。这需要文化变革,让员工在与代理协同工作时感到自信和赋权。为了启动这种变革,需要明确在各种事件响应场景中,何时何地需要人类的参与。
AI 应该始终 100% 处理那些已知修复的、已充分理解的事件。在那些存在一定模糊性的熟悉事件中,它也应该发挥主导作用,但仅限于某个程度。人类应该介入以验证 AI 的发现,并对修复措施做出最终决定。对于需要深厚专业知识、创造力和战略思维的新颖复杂问题,人类应该发挥主导作用。AI 可以在这里发挥支持作用,收集上下文和文档,并处理常规流程。
3) 早期建立安全措施
在设计安全和控制机制之前,等待出现问题是没有意义的。你应该从一开始就建立明确的界限,规定代理可以做什么和不能做什么。权限和策略将有助于使 AI 保持在正确的轨道上,并且根据公司的风险偏好,某些操作需要人工监督。输出过滤器和合规性检查将有助于确保代理符合内部标准。
4) 注重透明度和问责制
AI 的行为必须是可解释的、可追溯的、可审计的,以建立团队之间的信任。记录所有代理的决策,并使推理过程可解释。创建事件审查的审计跟踪。鼓励团队了解代理操作如何融入问责框架的整体情况。
5) 持续监控和优化性能
就像 ITOps 团队的任何成员一样,代理的性能也应该得到衡量和改进。结合使用事件解决时间、误报和对工作流程的影响等指标,以及定性反馈和定期审查的准确性。结合数据和团队反馈来提高性能和有效性。
一位同事,而非工具
代理 AI 就像一位同事,可以充分发挥员工的潜力。毫不奇怪,44% 的组织认为代理 AI 的影响将比生成式 AI (GenAI) 更大,而 94% 的组织预计其采用速度将比 GenAI 更快。他们还预计将获得更高的 ROI。但期望与现实并非完全一致。为了充分利用 AI 代理和团队的优势,你需要采取正确的方法将它们结合起来。