AI普及引发新型事件,传统IT运维难以应对。文章指出需将AI事件独立分类,优化团队结构,并改进沟通策略。未来,组织应转向主动、智能化的运营,以有效管理AI风险并保持信任。
译自:Why traditional ITOps is failing to keep up with the unique nature of AI incidents
作者:Kat Gaines
如果说2025年是AI普及之年,88%的组织现已在至少一个业务职能中运用AI,那么2026年很可能成为AI事件之年。随着AI系统快速部署,治理、监督和弹性方面的差距日益显现。在此环境下,IT运维 (ITOps) 团队必须为AI事件做好准备,并重新思考传统的运维管理流程,以反映风险性质的变化。
未来一年,以下三个转变将决定组织如何管理、响应和沟通AI事件。
AI事件将成为独立类别
随着AI更深入地嵌入业务运营,组织将把AI事件视为一个独立的类别,需要特定的修复流程。更广泛的采用引入了新的故障模式,尤其是在第三方AI工具被授予访问安全数据和内部系统的权限时。
当AI系统发生故障时,造成的损害可能很严重。一项IBM调查发现,63%的组织缺乏正式的治理政策来管理AI或防止影子AI的蔓延,这凸显了许多组织对AI相关的运营风险准备不足。为解决此问题,组织必须优先负责任地采用AI,并在事件发生前实施防护措施。
为应对新的故障模式,组织开始将AI可靠性作为一项运营指标来衡量。这使团队能够评估AI工具完成任务的有效性,并确定何时需要干预。关键指标可能包括幻觉率、偏见和模型漂移。我们可以预期将出现AI特定的操作手册(runbooks)来解决这些风险,以及提示注入攻击等安全威胁。
“组织必须优先负责任地采用AI,并在事件发生前实施防护措施 […] 关键指标可能包括幻觉率、偏见和模型漂移。”
尽管AI和自动化在运维管理中的作用将继续演变,但AI事件的风险意味着组织必须保留“人机协作”(human-in-the-loop)作为关键保障,并确保AI工具在执行高风险操作时请求批准。这在自动化流程失败时提供了一个手动覆盖选项,并确保人工主导的质量控制得以保留,以监控和管理AI可靠性。
团队设置将发生转变
AI事件跨越团队和业务职能,迫使ITOps团队重新思考事件管理的组织方式。实际上,这意味着优先进行跨职能培训,扩大参与事件修复的角色范围,并减少对少数专家响应者的依赖。随着时间的推移,这种转变将打破传统的运营孤岛,并将责任更均匀地分配给各个团队。
由于AI事件很少仅限于单个系统,其影响通常会波及多个业务部门,并影响内部团队和客户。因此,事件修复将越来越多地涉及来自非技术背景的领域专家,而这些专家通常不参与解决方案。组织在设计事件管理培训和响应流程时,应考虑这个更广泛的群体。
这种转变也对值班结构产生了影响。结合了深厚技术专业知识和更广泛、多团队参与的轮班制至关重要,因为这种团队设置确保了机器学习工程师和数据科学家与理解客户影响和业务背景的非技术角色一同待命。这些群体可以共同协作,在非工作时间解决AI事件,从而最大程度地减少对系统和客户的干扰。
沟通策略将成熟以应对AI威胁
鉴于AI事件更加复杂且跨领域,沟通也需要相应改变。事件沟通必须超越静态状态更新,提供及时、准确的影响解释和后续步骤,尤其是在客户和利益相关者受到影响时。
当事件发生时,客户期望清楚地了解他们受到的影响以及解决过程的可见性,而不仅仅是一个变红的状态页面。
AI辅助的沟通使组织能够超越被动通知,主动实时解释影响和后续步骤。这种及时性和精确性使客户能够采取行动,并最大程度地减少对其自身服务的下游影响。
“使用AI和自动化来提高事件沟通速度和准确性的组织,可以将侵蚀信任的事件转化为建立信任的透明时刻。”
使用AI和自动化来提高事件沟通速度和准确性的组织,可以将侵蚀信任的事件转化为建立信任的透明时刻。通过这种方式,他们并非通过完全避免事件来脱颖而出,而是在故障发生时展示责任感和清晰的沟通。
事件的新面貌
AI的快速采用标志着运维管理进入新阶段,重塑了事件的识别、管理和沟通方式。组织必须适应才能生存,因为在AI事件时代,那些拥有缓慢、被动事件管理流程的组织将举步维艰。
转向主动、智能驱动型运营的组织最能适应这一变化。AI和自动化支持的工具帮助团队预测事件并预见未来情况,从而实现先发制人的修复。那些使其运维管理实践现代化的组织将更好地管理AI相关风险并维护信任。
在AI时代,运维弹性不再是可选项。它是一种决定性的能力。