新运维栈：从IaC到平台，再到AI智能体云运维演进为三层堆栈：IaC定义状态，平台提供护栏和行为管理，AI代理实现日常操

云运维演进为三层堆栈：IaC定义状态，平台提供护栏和行为管理，AI代理实现日常操作自动化。新模式提升效率、安全与弹性。

译自：The New Operational Stack: From IaC to Platforms to AI Agents

作者：Fahmid Kabir

基础设施即代码（IaC）成为云资源配置的支柱已经十年了。Terraform、CloudFormation、Pulumi 和 Ansible 为我们提供了定义基础设施状态的结构化方式。它们也为我们提供了思考版本变更的方式，并使云环境可复现。

简而言之，IaC 带来了整个 DevOps 成熟度时代。

但如今，很多事情都已改变。系统变得极其复杂。我们拥有更多：

微服务
SaaS 集成
托管服务
云功能和边缘计算

当然，IaC 本身也开始显现其局限性。

现在，团队依赖于数十个相互连接的服务。配置、安全和运行时行为无法纯粹以代码形式捕获。与此同时，开发者期望自助服务和运营速度。而这些期望只会不断提高。

为此，我们现在拥有了一个新的运维堆栈来向前推进。

它由三个不同层的组合构成：

IaC
平台/编排层
用于日常运维的 AI 代理

这些层并非替代品，而更多是现有事物的演进。每一层都解决了运维问题的不同部分。它们共同定义了未来十年团队如何操作云基础设施的现代模式。

1. IaC 时代：资源配置是第一个大挑战

事情是这样的：IaC 给混乱带来了秩序。

它通过解决三个基础性问题做到了这一点：

声明式配置： 工程师描述他们想要什么，而不是如何构建它。
版本控制： 变更通过 Git 流动，而非经验主义知识。
可复现性： 环境匹配，因为代码匹配。

当然，对于静态或缓慢变化的基础设施来说，这运行得非常完美。

但现代云并非静态的。

IaC 在今天的困境

随着系统增长，团队很快意识到 IaC 并不能完全解决以下问题：

状态漂移和配置错误。
轮换密钥或身份和访问管理 (IAM) 更新。
临时环境创建。
事件修复。
可观测性的依赖项连接。
合规性强制执行。
身份范围和网络边界。
操作调试。
需要序列、审批或上下文的多步骤工作流。

底线是 IaC 从未旨在处理如此多的事物。它无法处理运行时行为、自适应工作流或持续操作。

毕竟，它描述的是对象，而不是动作。

幸运的是，下一层及时出现填补了这一空白。

2. 平台时代：护栏、标准化和上下文

大约在 2018-2020 年，工程组织开始构建内部开发者平台 (IDPs)。目标不是取代 IaC，而是将其封装在一个一致的运维模型中。

平台是一组协调系统，提供：

身份边界： 一致应用的 IAM 角色和策略。
网络边界： 受控的入口/出口和微分割。
合规性护栏： 针对 SOC 2、HIPAA、NIST、PCI 的控制。
自动化连接： 日志、指标、追踪、仪表盘、警报。
环境模板： 一键式环境或命名空间创建。
服务目录： 数据库、队列、API 的一致配置。

平台层位于 IaC 之上，但低于开发者工作流。

但 IaC 仍然是资源的权威描述。

现在，平台成为运维如何工作的权威描述。

平台为何出现

三个结构性转变使其成为必然：

微服务产生指数级复杂性： 每一个新增服务都会增加监控要求、IAM 角色、网络规则、部署工作流、服务水平目标 (SLOs) 和策略表面。
合规性要求持续证据： 现代审计需要持续监控，而非年度快照。IaC 可以定义安全策略，但平台必须强制执行它们。
开发者速度不能依赖专家： 开发者需要自助服务环境和服务。平台将云原语抽象为可预测的工作流。

平台 ≠ 平台即服务 (PaaS)

与普遍的看法相反，平台并不隐藏云。它组织云。

它围绕身份、网络和生命周期自动化创建了 IaC 无法单独强制执行的观点。最重要的是，它引入了逻辑边界，如租户（本系列第 2 部分将详细介绍），护栏可以附着在这些边界上。

这种平台化为下一个时代奠定了基础。

3. AI 时代：自动化日常运维

云运维的下一个重大转变发生在 AI 能够做到以下几点时：

关联日志、指标和追踪
理解自然语言请求
将症状映射到根本原因
应用运行手册式修复
生成基础设施变更
编排多步骤工作流

它的职责不是取代 DevOps 工程师，而是取代通常让 DevOps 工程师不堪重负的重复性任务。

AI 代理实际做什么

运维中的 AI 代理可以：

使用跨系统的信号诊断事件。
修复已知模式（如重启、配置补丁、扩缩容）。
创建或销毁临时环境。
强制执行合规性或安全策略。
为新基础设施生成 Terraform 或 YAML。
提出变更建议并附带解释，请求人工审批。

这些任务遵循 AI 可以可靠识别的模式。

但有个陷阱：没有护栏的 AI 是危险的

一个不受约束的 AI 代理就像一个没有上下文的 root 用户。

原因如下：

它可能生成不安全的 IAM 变更。
它可能修改不应该看到的资源。
它可能尝试违反合规性要求的修复。
它可能由于漂移或部分可见性而误解拓扑结构。

这就是为什么 AI 层不能直接位于 IaC 或原始云 API 之上。

AI 需要：

可预测的身份模型
范围化的权限
一致的网络边界
审计日志
漂移检测
已知拓扑
审批工作流

换句话说，AI 需要一个紧邻它的平台。它需要一个带有护栏的结构化层。没有这个，代理就无法安全地行动。

4. 三层模型

第 1 层：IaC

定义状态。

资源配置、模板、版本控制。

第 2 层：平台/编排器

定义行为。

护栏、边界、身份、网络、合规性、编排。

第 3 层：AI 代理执行层

定义行动。

故障排除、修复、环境管理和工作流自动化。

这个分层堆栈反映了软件的演进：

IaC = 代码。
平台 = 操作系统。
AI 代理 = 作用于系统的运行时进程。
没有操作系统，进程就没有结构。
没有 IaC，操作系统就无物可编排。

5. 组织影响

DevOps 瓶颈缩小： 最重复、最容易被打断的任务转移给 AI 代理。
开发者获得真正的自助服务： 他们与平台交互，而不是与单个云 API 交互。
合规性持续化： 检查在平台边界内运行，AI 帮助维护控制。
生产环境更具弹性： AI 代理在人类发现问题之前捕获它们。
DevOps 人员较少的团队也能像大型团队一样运作： 规模从人力劳动转向分层自动化。

总结

IaC 为团队提供了声明式基础。

平台为团队提供了结构和护栏。

AI 代理现在为团队提供了操作执行能力。

这就是新的运维堆栈。它不是一个简单的工具趋势。相反，它是一个结构性转变。

认识并采纳这种三层架构的组织将能够更快、更安全地运作，并大大减少运维摩擦。

不再需要通过增加人员来扩缩 DevOps，因为现在你可以通过结构来扩缩。

无需依赖英雄主义和经验主义知识。你可以依赖平台和自动化。

AI 不必是一个冒险的实验。将其部署为一个受身份、策略和上下文约束的受控执行层。

这种三层组合将定义未来十年的云运维。

在 DuploCloud，我们很高兴能成为 AI 进步的一部分，不断学习、摸索、再学习，最重要的是，创造并参与塑造未来的创新。

我们诚挚邀请您试用我们的 AI DevOps 代理沙盒。