\n\n报告显示仅37%的开发者信任AI处理故障。停机损失巨大且导致开发者倦怠。企业应通过建立信任、定向技能重塑及完善人机协作模型,降低工作负担并提升数字化运营韧性。
译自:Why only 37% of developers trust AI for incident response
作者:Mandi Walls
IT 运行时间现已牢牢确立为董事会级别的优先事项。不难理解为什么组织正在为数字中断付出沉重的代价。最近的一项 PagerDuty 研究 显示,全球 68% 的组织在 IT 事件期间每小时损失超过 30 万美元。
这不仅损害了客户忠诚度和底线。超过五分之二(42%)的运营负责人意识到,停机还会导致开发者倦怠。但通过有效地结合人类团队和自主 AI 工具,组织可以减轻响应者的工作量,从而有助于提高韧性、运营成熟度和创新。
疲劳感从何而来?
开发者疲劳是全球企业为他们向客户承诺的无缝、数字优先体验所付出的代价。工程团队面临着交付更新的持续压力,但他们所处理的复杂、脆弱的架构使得事故不可避免。每一个新版本都会带来新的依赖关系和潜在的故障源。
当出现问题时,工程人才会被迫离开高价值工作去进行调查和修复。糟糕的是,他们被困在孤岛化的工具中,这些工具无法消除告警噪声、智能路由事件,或主动发现并修复已知问题。平均每个团队每天可能被迫处理数千个告警,其中许多是无关紧要或重复的。
“平均每个团队每天可能被迫处理数千个告警,其中许多是无关紧要或重复的。”
自动化可以提供帮助,但如果团队需要调试脚本和管理异常,它也可能使组织孤岛持续存在,产生误导性结果并创造更多工作。其结果是随着精疲力竭的产生,士气低落,救火压力盖过了创新。
有办法避免这种命运。对于那些研究出如何以符合开发者利益的方式利用 AI 的组织来说,AI 提供了潜在的巨大收益。
请考虑以下三个步骤:
1. 在开发者中建立信任
如果没有对 AI 的信任,就无法向更成熟、对开发者更友好的模式迈进。IT 和业务负责人对这项技术的信心很高。研究表明,59% 的 IT 决策者期望 AI 能将停机时间和恢复性能提高 20% 以上。然而,开发者似乎并没有同样的共情,只有 37% 的人表示赞同。因此,改变这些观念是减少倦怠的关键第一步。
“如果没有对 AI 的信任,就无法向更成熟、对开发者更友好的模式迈进。”
组织需要进行宣传并帮助团队了解 AI 如何在个人和专业层面帮助他们。关键在于展示它如何消除重复性的繁琐工作,并让他们解脱出来去从事更具创造力和回报的任务。
然而,没有哪两个团队成员是完全相同的。有些人比其他人更需要说服,因为他们不确定 AI 的价值,或者担心工作安全,或者两者兼而有之。以同理心领导至关重要。如果团队成员开始参加可选的研讨会、尝试新工具并在未被要求的情况下分享学习成果,领导者就会知道这些努力正在发挥作用。
2. 提升现有团队的技能
可以说,项目最具挑战性的部分紧随其后:赋予开发者团队在日常工作中使用 AI 工具的技能。全球约一半(51%)的组织期望通过招聘或重新培训来交付 AI 驱动的事件检测和响应。
关键不在于让他们参加通用的培训课程,那些课程只能传授表面知识。相反,技能提升必须与每个人相关,并包括他们使用的工具、编写的代码语言以及运行的工作流。
从构建 AI 流利度所需的核心技能开始。这可能包括问题分解,即将任务分解为 AI 可以处理的各个组件。或者是提示工程,以便与 AI 系统进行有效沟通并理解不同模型如何解释输入。开发者还需要在质量评估方面打下基础,使他们能够有效地确定 AI 输出何时足够好,以及何时需要人工干预。
接下来,定制课程,使实践课程与特定角色相关。使用相同的工具、数据和工作流,使课程在语境上尽可能相关。记住,这都需要时间,培训应该被视为一个持续的项目。
3. 有效结合人类与 AI 代理
尽管 AI 在减轻开发者团队工作量方面非常重要,但它并不是万能药。许多组织默认保持谨慎,特别是在评估自主、代理式 AI 系统时。近三分之二(62%)的人正在寻求在未来三年内实现人类和代理式 AI 工作的均衡混合。这使得明确定义何时需要人工参与(human in the loop)变得至关重要。
实现这一目标的一种方法是遵循三层模型。
第一层由具有已知解决方案的常规问题组成。AI 处理所有这些问题,从检测到修复。人类只需要审查报告并在事件发生后完善流程,以学习和改进。天平的另一端是需要人类专业知识和创造性问题解决能力的创新或复杂问题。人类将始终在这里占据主导地位,仅使用 AI 来获取上下文、收集数据和处理常规沟通。
在两个极端之间是具有模糊元素的熟悉事件。在这一层,AI 可以放手进行详细分析、数据关联并生成建议。然而,人类将对修复做出最终决定,最终成为 AI 的监督者。
扩大团队
为了启动并运行这些努力,组织需要经历几个阶段。
首先是治理,然后是用户培训,并定义何时使用人工参与。接下来,组织需要建立护栏以限制代理的自主权,并建立记录决策、创建审计追踪和提高透明度的机制。
最后,他们必须追踪多项指标以监控并持续改进 AI 性能。该框架的一个额外好处是,它有助于建立工程师对 AI 工具的信任。
AI 代理应该被视为团队的新成员,因此必须像评估人类同事一样评估它们的影响。如果这些努力取得成功,组织将受益于更快乐的团队、更少的倦怠以及更具韧性的数字化运营。全 工智能