HPE推出代理式AI运营系统,通过AI代理协助运营团队应对复杂性、告警疲劳和人员短缺,能将根本原因分析时间至少缩短一半。强调人机协作、可审计性及基于技能的AI,以实现系统自我修复。
译自:HPE's AI agents cut root cause analysis time in half
作者:Jennifer Riggins
面对日益增长的复杂性和风险,运营疲劳是一个真实存在的问题。与基于技能的AI代理合作能否提供解决方案?
在整个软件开发生命周期中,AI已迅速成为值得信赖的协作者或“副驾驶”。特别是在运营领域,系统管理员、DevOps和站点可靠性工程(SRE)团队已采纳基于对话和提示的AI,以协助仍然主要依靠人工执行的事件响应。生成式AI正在使运营和安全团队进一步摆脱工单式运维。
迄今为止,大多数运营团队对安全性、合规性和始终在线的要求,使其不愿转向下一阶段的代理式AI。这种情况可能即将改变。
面对企业IT的复杂性和蔓延,Phanidhar Koganti,Hewlett Packard Enterprise (HPE) 混合云部门的资深杰出技术专家,告诉《The New Stack》,运营正在进入其“代理时代”,其中AI代理拥有专业知识、能力和工作流程,被称为代理技能。这些代理群致力于弥合企业数据和运营中长期存在的孤岛,并且在明确许可和可审计的情况下,可以根据目标导向的推理采取自主行动。
Koganti 解释说:“AI能够为他们指明正确的方向”,但随后“人类操作员必须通过验证来建立信任。”
在他的白皮书《从副驾驶到操作员:企业IT的代理式演进》中,Koganti 认为这一转变必须在人类操作员参与的情况下进行,由人类操作员担任协调者。
HPE 正在发布一套企业级、多域的代理式运营系统,其中包括目前处于测试阶段的代理式运营副驾驶,作为 OpsRamp IT 运营管理平台的一部分。该代理式运营应用预计将于2026年晚些时候全面上市,对于一些早期采用者而言,已将查找根本原因的时间至少缩短了一半。
该代理式运营应用预计将于2026年晚些时候全面上市,对于一些早期采用者而言,已将查找根本原因的时间至少缩短了一半。
AI作为一切事物的放大器,只会让在DevOps中建立AI变得更加紧迫,因为人手不足的运营团队手忙脚乱——有时甚至无法——跟上AI生成代码的速度及其固有的安全风险。正如数据显示,AI很可能是解决这个问题的方案。
运营团队面临压力
不到一半的企业认为他们在基础设施、数据、风险和人才方面已为AI的采用做好了运营准备。这意味着AI规模化应用的成功或失败,很大程度上取决于已经超负荷工作的运营团队。
一项针对网络安全和运营领导者的最新研究的受访者发现,最紧迫的问题(他们可以选择多个)是:
- 告警疲劳 – 76%
- 倦怠和人员短缺 – 73%
- 人工且耗时的告警调查 – 64%
- 工具蔓延和复杂性 – 59%
- 不断演变的威胁超出检测能力 – 55%
Osterman Research发现,大型企业中40%的告警因数量巨大而从未被调查,而73%的组织在2025年经历了直接与这些被忽略或压制的告警相关的停机。
随着系统复杂性的增加,这一数字呈指数级增长。
对于大多数采用混合云或多云路线的企业而言,惊人的三分之二缺乏对实时威胁检测和响应能力的信心。这种技术复杂性是导致情感耗竭的直接驱动因素。虽然工程师在短期内可能会坚持下去,但这会造成认知负担,导致长期的流失。这些高度专业的运营职位一直难以填补,组织正在失去重要的共享机构信息。
除了员工留存,运营倦怠还会对生产力和事件响应时间产生负面影响,增加可避免错误的发生可能性。
与此同时,网络安全风险和代码生成速度大幅上升。这意味着更多的代码、更多的告警,而人手根本不够。
代理式根本原因分析
适用于DevOps的代理式AI——将代理式AI解决方案应用于运营任务——提供了一个机会,帮助人类操作员减轻工作量、减少告警噪音并显著提高响应时间。
但AI并非万灵药。许多AI工具非但没有减少人工分类,反而增加了告警噪音,这进一步侵蚀了对该技术的信任。令人担忧的是,66%的AI工具已知会产生误报,这只会增加压力和错误。模型中过时的数据以及AI决策过程缺乏透明度是导致这些误报的原因之一。
为了在复杂的分布式系统中创建透明度,任何企业级运营代理式AI解决方案都必须打破跨组织的数据孤岛。平台工程已成为首选途径,它不仅可以整合不同的数据集,还可以为质量、安全和合规性建立护栏和关卡——无论是对于人类开发者还是代理式开发者。
HPE白皮书指出,如果做得好,代理式运营可以:
- 通过基于角色的可解释性克服运营孤岛
- 弥合数据孤岛,同时减少数据重复
- 通过多变量预测分析(如自适应阈值)实现主动运营
- 减少操作员倦怠
- 避免盲点
- 通过可审计性跟踪更改
HPE 代理式运营副驾驶的测试项目结果表明,AI代理在根本原因分析方面表现出色,有助于克服盲点。运营团队不可能知道企业环境中每周发生的所有发布,而机器不眠不休,AI特别擅长模式识别以及跨组织记忆。
Koganti 说:“在我们的测试项目中,许多客户告诉我们,发生的许多问题通常与他们四五天前所做的更改有关。”“他们明确希望我们跟踪他们正在进行的更改,并将其作为代理式分析特定问题时的额外上下文。”
白皮书概述了代理式操作员在其根本原因分析中进行调查的规划阶段:
- OODA反馈循环——观察、判断、决策、行动
- 假设生成——包括提取指标和日志
- 代理技能调度——例如,“跟踪分析技能”可用于隔离故障微服务,“指标分析技能”可用于识别协变量和偏差模式
- 综合——代理呈现一个叙述,包括它发现的可能罪魁祸首,以及它排除的因素
随着SRE、DevOps和系统管理员团队带来重要的机构知识,这些知识也会反馈到代理记忆中,使代理和人类都能提高他们的跨组织理解。
基于技能的AI代理
Koganti 认为,诀窍在于不将通用大型语言模型(LLM)应用于企业运营的特定需求。这正是运营代理技能发挥作用的地方。
Koganti 解释说:“你没有提供100%的详细信息,而是提供了关于骨架的高级指导。在运营领域,假设你收到某种特定症状的告警,比如虚拟化问题,那么你就知道你拥有一种知识或技能,它会说:对于这类与虚拟化相关的告警,你需要去查看虚拟机中的CPU利用率,以及与特定其他细节相关的存储IO等等。”他继续说道,“提供捕获在技能中的高级方向性指导”是必要的,“因为所有这些代理式的东西,如果你完全交给LLM,它们会随意生成任何内容。”
代理技能已在开发者中流行。HPE正尝试将其引入运营领域。
他继续说道:“这是一个独特之处,我们相信市场上的其他供应商也会随之效仿,就像基础设施即代码最初主要从生态系统的开发者侧被采纳一样。”他们正寻求将精心策划的运营技能从根本原因分析和事件调查扩展到包括处理虚拟化和网络的特定技能。
代理式可审计性是关键
运营中的AI必须努力弥合信任鸿沟。为了满足合规性、网络安全和操作员的需求,AI代理必须能够解释并证实其思维过程。
考虑到这一点,HPE的自主操作员品牌正在构建中,具备审计追踪、推理和可观测性。
完整审计追踪
- 每段对话都以租户隔离方式持久化
- 每条消息的用户归属,谁说了/做了什么
- 所有API调用都通过IT运营平台内的MCP工具调用进行审计日志记录
透明推理
- 在结论之前显示假设
- 用户可见的分步计划
- 每项洞察都引用来源
- 工具调用披露查询了哪些数据
可观测性和可追溯性
- 基于OpenTelemetry的代理执行追踪
- 决策路径日志——为什么是这个代理,为什么是这个工具
- 可重现的评估,确保相同的输入产生相同的推理路径
Koganti 谈到代理式根本原因分析的价值时说:“操作员确实会筋疲力尽,尤其是在这些问题通常发生的高压时刻,他们会犯很多错误,而机器不会遗漏任何数据,在收集正确数据方面不会犯任何错误,并能进行非常快速和客观的分析。”
然而,HPE团队尚未完全投入到代理驱动的修复中。AI运营代理将提出建议,但未经许可不会采取行动。即便如此,这种方法仍可将发现根本原因的通常令人沮丧的时间缩短多达一半。
他继续说道:“实际的修复,可能涉及更改特定的部署——比如说你想重启一些东西——这取决于操作员。OpsRamp 确实有能力自动触发选择性修复,但这必须由人类配置。我们的任何代理都不会采取自主行动。它是策略驱动的,而且该策略将是人类配置的。”
正如报告所述,通过采用代理技能,企业正开始从被动修复转向主动构建能够自我修复的系统。
在其新白皮书《从副驾驶到操作员:企业IT的代理式演进》中了解更多关于HPE代理式运营副驾驶功能的信息。