AIOps 发展至今,部分企业的实践仍停留在“辅助分析”阶段--算法给出告警或根因建议,决策与执行还需人工介入。真正的自动化闭环,始终差最后一步。
这个“最后一步”,正在被运维 AI Agent 打破。
从“洞察”到“处置”,AIOps的十年之约
过去十年,AIOps 的核心价值是“让数据说话”。通过异常检测、告警压缩、根因推荐,运维团队从海量监控数据中获得了前所未有的洞察力。这套能力有效降低了信息过载,也让“可观测性”成为行业标配。
但洞察不等于处置。在多数实际场景中,AIOps平台给出建议后,运维人员仍需手动切换多个系统--查日志、看指标、翻变更、问同事--像拼图一样还原事故现场。遇上复杂问题,往往需要求助经验丰富的运维老专家,因为只有他记得三个月前那个配置的来龙去脉。
这一的困境,暴露了当前 AIOps 的边界:它能“洞察”,但不能“处置”。
AIOps 2.0:AI Agent的入场 :从“辅助分析”到“自主执行”成为可能
业界通常将 AIOps 的发展划分为两个阶段:
-
1.0时代:以小模型和单点能力为主,解决的是“异常识别”问题。典型特征是人机协同--AI 负责发现异常,人负责判断和处置。
-
AIOps 2.0的核心特征,是大模型驱动的智能化与系统级协同。
大模型的引入带来了三个关键变化:
一是推理能力,AI 可以理解复杂场景、做出多步判断;
二是工具调用能力,AI 可以通过 API、命令行等方式与真实系统交互;
三是自然语言交互,运维人员可以用最自然的方式与 AI 对话,随时追问、随时指挥。
这三项能力叠加,让 AI 第一次具备了“自主执行”的可能。它不再满足于告诉你“这里有问题”,而是可以自己动手去查、去试、去修,同时随时回应你的追问。
基于AIOps 2.0的技术特征,面向运维场景的AI Agent 自然衍生出三项能力要求:
-
理解系统: 能自动获取并关联指标、日志、追踪、变更等分散信息,形成对系统状态的完整认知。没有这些上下文,推理就是空谈。
-
具备执行能力: 不只读数据,还要能写数据--调用 API、执行命令、触发变更。当然,敏感操作可以设置人工确认环节,但执行本身应由 AI 完成。
-
过程透明: AI 的每一步推理、每一次调用都应有据可查。这种可追溯性,是建立信任的基础——而信任,是 AI 进入生产环境的前提。
Castrel AI:面向 SRE 场景的 AI 智能体
Castrel AI 是云智慧推出的 AI SRE Agent,其设计回应了AIOps 2.0时代对 AI Agent 的能力要求。
1、如何让 AI 理解系统?
传统 AIOps 落地的障碍之一,是数据治理的门槛。CMDB 建设周期长、维护成本高。
云智慧 Castrel AI 的设计思路是:通过简单的指令或现有文档,让 AI 自动学习如何从基础设施中采集和关联数据。无需强制依赖 CMDB,在现实条件下仍能让AI发挥作用。
2、如何让 AI 执行任务?
传统自动化依赖拖拽式工作流配置。
云智慧 Castrel AI 采用“文档即代码”的方式:已有的 SOP、排障手册可直接作为执行依据。AI 读取文档,理解步骤,调用工具,执行操作。敏感步骤可设置人工确认,但执行本身由 AI 完成。
3、如何让 AI 可信?
运维场景下,信任是 AI 的入场券。
云智慧 Castrel AI 的设计要求每一步推理、每一次调用都可追溯。当 AI 给出结论时,运维人员可以随时查看它当时看了哪些指标、调用了哪些接口。
围绕这三条设计主线,云智慧 Castrel AI (SRE 智能体)覆盖了 SRE 的核心场景:
-
告警分诊: 自动聚合降噪,将真正需要关注的事件推送给值班人员。
-
事件调查: 跨源关联分析指标、日志和变更,输出带证据链的根因报告。
-
部署验证: 自动比对变更前后的关键指标、日志和链路数据,提前发现风险。
-
自动化运维: 依据 SOP 文档自动执行重启、回滚、扩缩容等例行操作。
-
智能问答: 支持自然语言查询,让运维人员快速调取系统知识和历史案例。
运维智能化的终极愿景:释放组织创造力,筑牢业务护城河
AI Agent 进入运维,并不意味着工程师的职责被取代。从更长远的视角看,它带来的是角色重塑。
当AI能够处理告警分类、故障排查、变更执行等重复性工作时,工程师们将从7x24小时的被动响应中转向系统架构优化、自动化流程设计、业务连续性保障等更具创造性的工作。
过去需要熬夜处理的告警风暴,现在可以交给Agent自动处置;过去需要手动操作的例行变更,现在可以由Agent按文档执行。
这或许是运维智能化更值得期待的方向:不是让人无事可做,而是让人去做更有价值的事。
云智慧 Castrel AI 21天免费试用活动火热进行中!
详询热线:400-666-1332