值班工作易致人才倦怠。文章提出四项原则:明确职责、减轻负荷、保障休息、从事件中学习。AI辅助排班,兼顾技术与人文,打造可持续值班文化,避免人才流失。
译自:Is your on-call rotation quietly burning out top talent?
作者:Cristina Dias
值班工作是 IT 运维 (ITOps) 团队的现实,但随着系统复杂性和业务压力的增加,倦怠会迅速蔓延到整个团队。当缺勤增加同事的工作量、降低产能并导致认知障碍时,它们不可避免地会减缓事件管理流程。
好消息是,情况并非必须如此。
“通过在弹性、可靠性和清晰度与员工福祉之间取得谨慎的平衡,可以创建支持卓越运营和可持续发展的随叫随到排班。”
通过在弹性、可靠性和清晰度与员工福祉之间取得谨慎的平衡,可以创建支持卓越运营和可持续发展的随叫随到排班。人工智能在此过程中可以成为一个有用的盟友,但建立可持续的长期随叫随到计划意味着既要照顾到参与其中的人,也要照顾到机器。
压力与日俱增
对于现代、以数字为中心的企业来说,长时间的 服务停机可能会严重影响客户忠诚度、品牌声誉和收入。企业面临的压力是巨大的,无论是 Black Friday 期间零售商保持在线,还是在繁忙的假日周末航空公司值机系统不因压力而崩溃。随叫随到的事件响应者必须准备好介入诊断、解决和恢复,即使在非工作时间。
随着企业不断建设其数字基础设施以及客户对无缝体验的需求不断增长,IT 运维变得更具挑战性。在此背景下,全天候准备需要创建一个可持续、灵活和公平的文化。
设计更可持续的方法
以下是制定优化随叫随到排班方法的四项指导原则。
1. 建立清晰的职责和升级路径
当事件发生时,清晰的职责对于避免混淆和延误至关重要,基于服务的架构可能比基于团队的设置更有效。
在基于服务的模型中,警报直接路由到负责受影响服务的专门主题专家(SME)。相比之下,基于团队的模型依赖于一组通才之间的轮换。采用基于服务的运维管理架构的企业必须维护准确、最新的服务目录,以提供更广泛的服务职责可见性。这确保了警报能够持续、及时地路由到最合适的随叫随到响应者。
有效的升级策略通常包括三个要素:
- 超时机制:如果在规定时间内未确认或解决警报,则自动升级。
- 清晰的升级目标:例如,特定的 SME 或受影响服务的随叫随到负责人。
- 自动化:确保关键警报得到迅速升级和解决。
2. 减少认知负荷和操作噪音
认知负荷是一种有限的资源。没有保护,团队难以快速有效地工作,随着时间的推移,倦怠的可能性会增加。操作噪音通过降低决策质量并增加错过真实正例的风险而使问题复杂化。
人工智能和自动化在这里可以发挥重要的辅助作用。事件驱动的自动化有助于去重、关联或抑制噪音,确保只有有意义的警报才能到达响应者。人工智能工具还通过总结事件呼叫、建议自动化运行手册和起草状态更新来减少手动繁重工作。
“认知负荷是一种有限的资源。没有保护,团队难以快速有效地工作,随着时间的推移,倦怠的可能性会增加。”
人工智能支持的运维管理工具通过消除警报噪音,并自动提供结构化、简洁和相关的上下文,帮助响应者快速启动并加速解决问题。
为了确定应用人工智能的最佳机会,团队应该评估哪些工作是重复性或手动的,因为这些领域通常是智能自动化的最佳候选者。
3. 保护时间、休息和恢复
响应者绝不应该害怕值班。为团队提供充足的休息和恢复时间对于他们长期保持高效、有弹性和投入至关重要。
上下文丰富的交接起着重要作用。人工智能可用于生成简洁、异步的轮班总结,捕捉未解决的事件、已知风险、即将到来的维护窗口、正在进行的抑制或静音以及其他相关上下文。在重大事件持续期间,仍可能需要进行简短的实时同步以确保连续性。
随叫随到轮班应包括强制恢复期,尽量减少连续排班,并公平地分配团队工作量。额外的保护措施包括限制覆盖次数以及在达到过载阈值时自动升级。人工智能工具可以通过分析警报频率、非工作时间影响和工作量模式来支持可持续运营,帮助企业设计保护响应者福祉的排班。
4. 将每个事件视为学习机会
对于任何认真对待可持续随叫随到排班的企业来说,持续改进必须是目标。事后评审为团队提供了一种结构化、无责备的方式来分析发生了什么并确定改进领域。分析工具允许团队根据其服务水平目标 (SLO) 跟踪绩效,并将其作为 基准来推动持续的卓越运营。
人工智能通过 提供相关的分析并自动化 事后评审和总结的创建来支持这一过程。然后,生成的洞察可以用于持续完善随叫随到轮班、升级路径、服务职责和运行手册。
文化变革始于此
随叫随到排班将永远是 IT 运维团队工作的一部分,但人工智能和自动化正在迅速改变团队处理它的方式。只要谨慎使用工具,并且 团队在严重事件中保持人为参与,就可以取得显著的收益。
随叫随到排班不仅仅是制定轮值表。它关乎建立一种文化,在这种文化中,团队受到尊重并获得他们所需工具,以完成最佳工作。技术在支持组织弹性方面发挥着重要作用,通过自动化繁琐任务、过滤操作噪音和加速升级。然而,成功最终取决于值班人员的信心、判断力和技能。