DevOps还在等它的“Cursor时刻”

5 阅读6分钟

AI革新开发,但DevOps运维滞后。因零容错、复杂上下文等挑战,运维AI需云内运行、统一编排、人机协作及专业代理。DevOps的AI时代即将来临。

译自:DevOps Is Still Waiting for Its Cursor Moment

作者:Zafar Abbas

凌晨2点47分。你的手机嗡嗡作响。生产告警。结账服务正在抛出5xx错误,客户正在放弃购物车,而值班工程师则在Datadog、Argo CD、kubectl和日志之间来回切换。她只是想弄清楚到底发生了什么变化。20分钟前,延迟飙升。凌晨2点31分,一个部署发布了。

两个Pod处于CrashLoopBackOff状态。内存限制被修改了。她回滚了,更新了工单,写了事后总结,然后……试图回去睡觉。然而她知道下周她将再次经历类似的事情。

与此同时,她的同事因为AI,在几分钟内在Cursor中重构了整个模块。AI理解了代码库,提出了修改建议,并处理了繁琐的部分。所有这些都是自动完成的。

发生了什么?

AI已经改变了我们编写代码的方式。但它尚未改变我们操作运行代码的基础设施的方式。

差距持续扩大

在过去两年中,AI重塑了开发人员的工作方式:

  • Cursor和Copilot编写和重构代码。
  • Lovable、v0和Bolt等工具生成前端。
  • Replit代理搭建和部署完整的应用程序。

但DevOps工作仍然是手动的。工程师仍然必须通过以下方式解决事件:

事件仍然会阻碍发布。积压的工作仍然在增长。

AI极大地促进了开发,而运维却停滞不前。这不是市场疏忽。这个问题要困难得多。

为什么操作基础设施如此不同

1. 容错空间为零

一个糟糕的代码建议会在分支中失败。 一个糟糕的基础设施变更会立即影响实时流量。

DevOps中的每一个操作都有其影响范围:Pod宕机、安全组中断连接、流水线导致一系列故障。

2. 上下文广度巨大

一个用于DevOps的AI必须综合处理:

  • 生产环境与开发环境
  • Kubernetes的状态
  • 用于Terraform/基础设施即代码的代码仓库
  • CI/CD运行
  • 可观测性信号
  • 云提供商配置
  • 成本数据
  • 合规性限制

所以你的代码助手只需要文件及其邻近内容。而对于DevOps,你必须拥有整个堆栈的意识。

3. 每个环境都是独一无二的

没有一个通用模型可以定义你的基础设施形态。每家公司都有自定义的Terraform模块、自定义的流水线、部署策略、告警规则和仪表盘逻辑。一个通用的AI无法安全运行。

4. 治理是强制性的

真实基础设施要求:

  • 基于角色的访问控制 (RBAC)
  • 审批
  • 审计日志
  • 合规性证据

没有任何AI可以绕过这些流程。它必须能够与它们集成。

为什么现有工具力有不逮

这很难。许多产品解决了问题的部分:

  • 运行手册自动化执行预定义脚本。
  • AIOps平台对告警进行分组。
  • 可观测性工具诊断异常。
  • 事件管理工具路由和升级响应者。
  • 编码副驾驶帮助修改IaC。

当然。这些都很有用。但没有一个能像Cursor处理应用程序代码那样运行。

DevOps版“Cursor”必须具备什么

要让DevOps版“Cursor”奏效,你必须具备以下几点:

它必须在你的云中运行

基础设施和数据是敏感的。一个可行的系统必须驻留在客户的虚拟私有云中,使用身份和访问管理,并依赖云原生大型语言模型(LLMs),如Amazon Bedrock。

它需要一个统一的编排层

IaC、Kubernetes、CI/CD、可观测性、成本和合规性都是独立的领域,对吗?AI需要一个协调器,它能够处理:

  • 身份
  • 上下文共享
  • 工具集成
  • 多步骤工作流
  • 基础设施即代码

你需要一个精心设计的人在回路系统

以下是分步过程:

  1. AI观察并提出建议。
  2. 人类批准代码和基础设施变更。
  3. AI执行。
  4. 一切都被记录。

这是生产能够良好运行的唯一方式。

原生RBAC至关重要

代理必须能够继承其所代表人员的精确权限。并且权限提升必须及时发生。

具备深厚专业知识的领域特定代理是成功的关键

你不需要一个庞大的模型。你需要专门的代理,例如:

  • Kubernetes代理
  • CI/CD代理
  • 可观测性代理
  • 合规性代理
  • 成本优化代理
  • 代码IDE集成代理

每一个都对其领域有深入的了解。并且有一个统一的编排层将它们连接起来。基础设施有许多独立的问题,你需要专门从事Kubernetes、CI/CD、可观测性、合规性和成本管理的代理。这些代理做出更明智的决策,并更贴近真实的DevOps工作。它们还可以协同工作:一个代理可以标记一个问题,另一个可以通过配置或代码更改来修复它,第三个可以验证它,从而正确处理复杂的工作流。

早期成果指明了前进的道路

我们已经看到团队正在试点这些架构。他们已经看到了:

  • MTTR降低40%至70%
  • 工单量显著下降
  • 供应周期从几周缩短到几小时
  • 自动化证据和持续控制检查

这些成果来自于允许AI处理可预测的工作。因此,你不再有精疲力尽的DevOps团队。AI现在可以在幕后分析信号、识别已知模式、执行已批准的修复、配置环境并捕获审计数据。目标不是取代工程师。目标是赋予他们杠杆作用。

Cursor时刻即将来临

不,基础设施的复杂性并未改变。但AI能力已经改变。现在已存在将AI安全应用于开发和运维的架构模式。

在未来18个月内,我们肯定会看到:

  • 更好的跨代理编排
  • 更深入的工具集成
  • 更丰富的上下文推理
  • 与现有工作流更顺畅的对齐
  • 美观的IaC编码体验。

DevOps一直在等待它的Cursor时刻,现在所有要素都已就位。

我们正在DuploCloud构建AI DevOps工程师,因此你将获得以下AI代理:在你的云中运行,理解你的基础设施,执行具有内置治理和合规性的真实DevOps任务,并帮助编写和运行你的IaC。了解更多关于DuploCloud AI DevOps工程师的信息。