AI革新开发,但DevOps运维滞后。因零容错、复杂上下文等挑战,运维AI需云内运行、统一编排、人机协作及专业代理。DevOps的AI时代即将来临。
译自:DevOps Is Still Waiting for Its Cursor Moment
作者:Zafar Abbas
凌晨2点47分。你的手机嗡嗡作响。生产告警。结账服务正在抛出5xx错误,客户正在放弃购物车,而值班工程师则在Datadog、Argo CD、kubectl和日志之间来回切换。她只是想弄清楚到底发生了什么变化。20分钟前,延迟飙升。凌晨2点31分,一个部署发布了。
两个Pod处于CrashLoopBackOff状态。内存限制被修改了。她回滚了,更新了工单,写了事后总结,然后……试图回去睡觉。然而她知道下周她将再次经历类似的事情。
与此同时,她的同事因为AI,在几分钟内在Cursor中重构了整个模块。AI理解了代码库,提出了修改建议,并处理了繁琐的部分。所有这些都是自动完成的。
发生了什么?
AI已经改变了我们编写代码的方式。但它尚未改变我们操作运行代码的基础设施的方式。
差距持续扩大
在过去两年中,AI重塑了开发人员的工作方式:
- Cursor和Copilot编写和重构代码。
- Lovable、v0和Bolt等工具生成前端。
- Replit代理搭建和部署完整的应用程序。
但DevOps工作仍然是手动的。工程师仍然必须通过以下方式解决事件:
事件仍然会阻碍发布。积压的工作仍然在增长。
AI极大地促进了开发,而运维却停滞不前。这不是市场疏忽。这个问题要困难得多。
为什么操作基础设施如此不同
1. 容错空间为零
一个糟糕的代码建议会在分支中失败。 一个糟糕的基础设施变更会立即影响实时流量。
DevOps中的每一个操作都有其影响范围:Pod宕机、安全组中断连接、流水线导致一系列故障。
2. 上下文广度巨大
一个用于DevOps的AI必须综合处理:
- 生产环境与开发环境
- Kubernetes的状态
- 用于Terraform/基础设施即代码的代码仓库
- CI/CD运行
- 可观测性信号
- 云提供商配置
- 成本数据
- 合规性限制
所以你的代码助手只需要文件及其邻近内容。而对于DevOps,你必须拥有整个堆栈的意识。
3. 每个环境都是独一无二的
没有一个通用模型可以定义你的基础设施形态。每家公司都有自定义的Terraform模块、自定义的流水线、部署策略、告警规则和仪表盘逻辑。一个通用的AI无法安全运行。
4. 治理是强制性的
真实基础设施要求:
- 基于角色的访问控制 (RBAC)
- 审批
- 审计日志
- 合规性证据
没有任何AI可以绕过这些流程。它必须能够与它们集成。
为什么现有工具力有不逮
这很难。许多产品解决了问题的部分:
- 运行手册自动化执行预定义脚本。
- AIOps平台对告警进行分组。
- 可观测性工具诊断异常。
- 事件管理工具路由和升级响应者。
- 编码副驾驶帮助修改IaC。
当然。这些都很有用。但没有一个能像Cursor处理应用程序代码那样运行。
DevOps版“Cursor”必须具备什么
要让DevOps版“Cursor”奏效,你必须具备以下几点:
它必须在你的云中运行
基础设施和数据是敏感的。一个可行的系统必须驻留在客户的虚拟私有云中,使用身份和访问管理,并依赖云原生大型语言模型(LLMs),如Amazon Bedrock。
它需要一个统一的编排层
IaC、Kubernetes、CI/CD、可观测性、成本和合规性都是独立的领域,对吗?AI需要一个协调器,它能够处理:
- 身份
- 上下文共享
- 工具集成
- 多步骤工作流
- 基础设施即代码
你需要一个精心设计的人在回路系统
以下是分步过程:
- AI观察并提出建议。
- 人类批准代码和基础设施变更。
- AI执行。
- 一切都被记录。
这是生产能够良好运行的唯一方式。
原生RBAC至关重要
代理必须能够继承其所代表人员的精确权限。并且权限提升必须及时发生。
具备深厚专业知识的领域特定代理是成功的关键
你不需要一个庞大的模型。你需要专门的代理,例如:
- Kubernetes代理
- CI/CD代理
- 可观测性代理
- 合规性代理
- 成本优化代理
- 代码IDE集成代理
每一个都对其领域有深入的了解。并且有一个统一的编排层将它们连接起来。基础设施有许多独立的问题,你需要专门从事Kubernetes、CI/CD、可观测性、合规性和成本管理的代理。这些代理做出更明智的决策,并更贴近真实的DevOps工作。它们还可以协同工作:一个代理可以标记一个问题,另一个可以通过配置或代码更改来修复它,第三个可以验证它,从而正确处理复杂的工作流。
早期成果指明了前进的道路
我们已经看到团队正在试点这些架构。他们已经看到了:
- MTTR降低40%至70%
- 工单量显著下降
- 供应周期从几周缩短到几小时
- 自动化证据和持续控制检查
这些成果来自于允许AI处理可预测的工作。因此,你不再有精疲力尽的DevOps团队。AI现在可以在幕后分析信号、识别已知模式、执行已批准的修复、配置环境并捕获审计数据。目标不是取代工程师。目标是赋予他们杠杆作用。
Cursor时刻即将来临
不,基础设施的复杂性并未改变。但AI能力已经改变。现在已存在将AI安全应用于开发和运维的架构模式。
在未来18个月内,我们肯定会看到:
- 更好的跨代理编排
- 更深入的工具集成
- 更丰富的上下文推理
- 与现有工作流更顺畅的对齐
- 美观的IaC编码体验。
DevOps一直在等待它的Cursor时刻,现在所有要素都已就位。
我们正在DuploCloud构建AI DevOps工程师,因此你将获得以下AI代理:在你的云中运行,理解你的基础设施,执行具有内置治理和合规性的真实DevOps任务,并帮助编写和运行你的IaC。了解更多关于DuploCloud AI DevOps工程师的信息。