新运维栈:从IaC到平台,再到AI智能体

38 阅读7分钟

云运维演进为三层堆栈:IaC定义状态,平台提供护栏和行为管理,AI代理实现日常操作自动化。新模式提升效率、安全与弹性。

译自:The New Operational Stack: From IaC to Platforms to AI Agents

作者:Fahmid Kabir

基础设施即代码(IaC)成为云资源配置的支柱已经十年了。Terraform、CloudFormation、Pulumi 和 Ansible 为我们提供了定义基础设施状态的结构化方式。它们也为我们提供了思考版本变更的方式,并使云环境可复现。

简而言之,IaC 带来了整个 DevOps 成熟度时代。

但如今,很多事情都已改变。系统变得极其复杂。我们拥有更多:

  • 微服务
  • SaaS 集成
  • 托管服务
  • 云功能和边缘计算

当然,IaC 本身也开始显现其局限性。

现在,团队依赖于数十个相互连接的服务。配置、安全和 运行时行为无法纯粹以代码形式捕获。与此同时,开发者期望自助服务和运营速度。而这些期望只会不断提高。

为此,我们现在拥有了一个新的运维堆栈来向前推进。

它由三个不同层的组合构成:

  1. IaC
  2. 平台/编排层
  3. 用于日常运维的 AI 代理

这些层并非替代品,而更多是现有事物的演进。每一层都解决了运维问题的不同部分。它们共同定义了未来十年团队如何操作云基础设施的现代模式。

Layer 1: Infrastructure as Code; Layer 2, Platform & Orchestration; Layer 3, AI Agent Execution

1. IaC 时代:资源配置是第一个大挑战

事情是这样的:IaC 给混乱带来了秩序。

它通过解决三个基础性问题做到了这一点:

  • 声明式配置: 工程师描述他们想要什么,而不是如何构建它。
  • 版本控制: 变更通过 Git 流动,而非经验主义知识。
  • 可复现性: 环境匹配,因为代码匹配。

当然,对于静态或缓慢变化的基础设施来说,这运行得非常完美。

但现代云并非静态的。

IaC 在今天的困境

随着系统增长,团队很快意识到 IaC 并不能完全解决以下问题:

  • 状态漂移和配置错误。
  • 轮换密钥或身份和访问管理 (IAM) 更新。
  • 临时环境创建。
  • 事件修复。
  • 可观测性的依赖项连接。
  • 合规性强制执行。
  • 身份范围和网络边界。
  • 操作调试。
  • 需要序列、审批或上下文的多步骤工作流。

底线是 IaC 从未旨在处理如此多的事物。它无法处理运行时行为、自适应工作流或持续操作。

毕竟,它描述的是对象,而不是动作。

幸运的是,下一层及时出现填补了这一空白。

2. 平台时代:护栏、标准化和上下文

大约在 2018-2020 年,工程组织开始构建内部开发者平台 (IDPs)。目标不是取代 IaC,而是将其封装在一个一致的运维模型中。

平台是一组协调系统,提供:

  • 身份边界: 一致应用的 IAM 角色和策略。
  • 网络边界: 受控的入口/出口和微分割。
  • 合规性护栏: 针对 SOC 2、HIPAA、NIST、PCI 的控制。
  • 自动化连接: 日志、指标、追踪、仪表盘、警报。
  • 环境模板: 一键式环境或命名空间创建。
  • 服务目录: 数据库、队列、API 的一致配置。

平台层位于 IaC 之上,但低于开发者工作流。

但 IaC 仍然是资源的权威描述。

现在,平台成为运维如何工作的权威描述。

平台为何出现

三个结构性转变使其成为必然:

  1. 微服务产生指数级复杂性: 每一个新增服务都会增加监控要求、IAM 角色、网络规则、部署工作流、服务水平目标 (SLOs) 和策略表面。
  2. 合规性要求持续证据: 现代审计需要持续监控,而非年度快照。IaC 可以定义安全策略,但平台必须强制执行它们。
  3. 开发者速度不能依赖专家: 开发者需要自助服务环境和服务。平台将云原语抽象为可预测的工作流。

平台 ≠ 平台即服务 (PaaS)

与普遍的看法相反,平台并不隐藏云。它组织云。

它围绕身份、网络和生命周期自动化创建了 IaC 无法单独强制执行的观点。最重要的是,它引入了逻辑边界,如租户(本系列第 2 部分将详细介绍),护栏可以附着在这些边界上。

这种平台化为下一个时代奠定了基础。

3. AI 时代:自动化日常运维

云运维的下一个重大转变发生在 AI 能够做到以下几点时:

  • 关联日志、指标和追踪
  • 理解自然语言请求
  • 将症状映射到根本原因
  • 应用运行手册式修复
  • 生成基础设施变更
  • 编排多步骤工作流

它的职责不是取代 DevOps 工程师,而是取代通常让 DevOps 工程师不堪重负的重复性任务。

AI 代理实际做什么

运维中的 AI 代理可以:

  • 使用跨系统的信号诊断事件。
  • 修复已知模式(如重启、配置补丁、扩缩容)。
  • 创建或销毁临时环境。
  • 强制执行合规性或安全策略。
  • 为新基础设施生成 Terraform 或 YAML。
  • 提出变更建议并附带解释,请求人工审批。

这些任务遵循 AI 可以可靠识别的模式。

但有个陷阱:没有护栏的 AI 是危险的

一个不受约束的 AI 代理就像一个没有上下文的 root 用户。

原因如下:

  • 它可能生成不安全的 IAM 变更。
  • 它可能修改不应该看到的资源。
  • 它可能尝试违反合规性要求的修复。
  • 它可能由于漂移或部分可见性而误解拓扑结构。

这就是为什么 AI 层不能直接位于 IaC 或原始云 API 之上。

AI 需要:

  • 可预测的身份模型
  • 范围化的权限
  • 一致的网络边界
  • 审计日志
  • 漂移检测
  • 已知拓扑
  • 审批工作流

换句话说,AI 需要一个紧邻它的平台。它需要一个带有护栏的结构化层。没有这个,代理就无法安全地行动。

4. 三层模型

第 1 层:IaC

定义状态。

资源配置、模板、版本控制。

第 2 层:平台/编排器

定义行为。

护栏、边界、身份、网络、合规性、编排。

第 3 层:AI 代理执行层

定义行动。

故障排除、修复、环境管理和工作流自动化。

这个分层堆栈反映了软件的演进:

  • IaC = 代码。
  • 平台 = 操作系统。
  • AI 代理 = 作用于系统的运行时进程。
  • 没有操作系统,进程就没有结构。
  • 没有 IaC,操作系统就无物可编排。

5. 组织影响

  • DevOps 瓶颈缩小: 最重复、最容易被打断的任务转移给 AI 代理。
  • 开发者获得真正的自助服务: 他们与平台交互,而不是与单个云 API 交互。
  • 合规性持续化: 检查在平台边界内运行,AI 帮助维护控制。
  • 生产环境更具弹性: AI 代理在人类发现问题之前捕获它们。
  • DevOps 人员较少的团队也能像大型团队一样运作: 规模从人力劳动转向分层自动化。

总结

IaC 为团队提供了声明式基础。

平台为团队提供了结构和护栏。

AI 代理现在为团队提供了操作执行能力。

这就是新的运维堆栈。它不是一个简单的工具趋势。相反,它是一个结构性转变。

认识并采纳这种三层架构的组织将能够更快、更安全地运作,并大大减少运维摩擦。

不再需要通过增加人员来扩缩 DevOps,因为现在你可以通过结构来扩缩。

无需依赖英雄主义和经验主义知识。你可以依赖平台和自动化。

AI 不必是一个冒险的实验。将其部署为一个受身份、策略和上下文约束的受控执行层。

这种三层组合将定义未来十年的云运维。

在 DuploCloud,我们很高兴能成为 AI 进步的一部分,不断学习、摸索、再学习,最重要的是,创造并参与塑造未来的创新。

我们诚挚邀请您试用我们的 AI DevOps 代理沙盒