文章批判了 ClickOps 的实践,认为它导致基础设施债务、配置漂移和增加多云复杂性。文章强调了转向“云即代码”方法的重要性,即追踪紧急干预措施、立即进行编码,并将 ClickOps 视为需要紧急关注的技术债务。
作者:Ido Neeman
ClickOps 是一种耻辱。作为一个社区,我们应该禁止它。对于任何认真对待云基础设施的人来说,这应该是显而易见的。
今天,数据显示,根据 Firefly 2025 年的“基础设施即代码状态”报告,89% 的组织声称他们已经采用了基础设施即代码 (IaC),但只有 6% 实现了完整的云编码。这个数据很残酷。它告诉我们,大多数公司都在拥抱 IaC 并且相信他们是 IaC 成熟的组织,但仍然有系统地使用 ClickOps —— 使用云控制台/图形界面而不是命令行进行基础设施管理。
总的来说,作为云从业者,我们已经将职业渎职行为正常化了。而且情况会变得更糟。
“紧急”合理化
ClickOps 无处不在的一个原因是:每个 ClickOps 操作都被标记为“紧急”。
团队已经完善了将手动控制台更改合理化为必要例外的艺术。但是,当大多数组织都在进行这些例外情况时,它们不再是例外情况。它们只是标准操作程序。
这种模式是可以预测的:
- 将每个控制台更改标记为“紧急”。
- 使用紧急协议进行例行更改。
- 当迫在眉睫的压力消失时,放弃补救工作。
- 重复操作,直到 ClickOps 成为标准做法。
许多人将控制台更改视为热修复,因此,他们有义务在某个时候返回并正确地构建这些更改。但这里的关键是“有义务”——因为大多数团队永远不会坚持到底。
这种虚伪显而易见。工程团队要求对应用程序更改进行代码审查,但随后他们通过点击进行基础设施修改,这可能会导致整个环境瘫痪。
我们不想面对的真相?我们停止 SSH 连接到 Linux 机器是有原因的。我们应该停止 ClickOps。
我们仍然相信的暂存环境神话
团队认为在非生产环境中使用 ClickOps 对于敏捷性是必要的,这会在环境之间造成系统的漂移,几乎可以保证生产故障。
你是否发现自己说过:“一切都在我的机器上运行良好。一切在暂存环境中运行良好,然后我们部署到生产环境,突然——大规模停机”?这是一个从业者比他们愿意承认的更常遇到的问题。通常,根本原因是生产环境受 IaC 管理,而暂存环境仍然是 ClickOps 的自由区。
现实检查:暂存环境的借口不是实用主义。这是伪装成灵活性的工程疏忽。
ClickOps 驱动的基础设施债务的成本
ClickOps 会创建困扰组织多年的幽灵基础设施。
想象一下:三年不必要的云支出,因为有人点击了一个按钮就走开了。这不是一个边缘案例。这是将基础设施视为调试会话而不是工程学科的可预测结果。
对于像 Figma 这样的公司来说,这家设计工具公司最近的首次公开募股显示,每天有高达 300,000 美元 的巨额云账单,不必要的支出会迅速累积,并让你损失数百万美元。
暂存环境的借口不是实用主义。这是伪装成灵活性的工程疏忽。
除了不断增加的成本之外,更糟糕的是复合的知识债务。工程师启动环境并将其搁置多年,他们的继任者不愿触碰它们,没有勇气删除它们。在这些情况下,ClickOps 不仅会产生技术债务。它还会造成组织瘫痪。
配置漂移流行病的解释
尽管 IaC 的采用率越来越高,但配置漂移的情况却越来越严重。2025 年的“基础设施即代码状态”报告显示:
- 不到三分之一的组织主动监控漂移。
- 17% 的组织根本没有漂移检测流程。
- 只有 8% 的组织拥有自动化的漂移管理工具。
- 40% 的团队报告说,漂移需要几天到几周才能修复。
根本原因很明显:部分 IaC 采用与系统性 ClickOps 相结合,基本上保证了配置差异。这不是一个工具问题。这是一个纪律问题。
解决这些做法的窗口正在迅速关闭。
加剧问题:多云复杂性和人工智能
在多云、多 IaC 环境中,维护安全、不可变、弹性的云的挑战会加剧。今天:
- 68% 的组织跨多个云运行。
- 57% 的组织使用多个 IaC 框架。
不同的团队正在使用不同的工具,所有这些工具都在对手动更改互连的资源。这已经够难的了。
但两年后,我们将无法像现在这样解决这些问题。当我们进入人工智能代理为我们运行云的时代,如果云团队没有非常有序的记录系统,也没有为他们编纂正确的护栏,他们将会造成严重破坏。因此,毫不奇怪,尽快制定行动计划至关重要。
专业黄金标准:云即代码
真正的紧急程序需要立即制定补救计划。如果在周五晚上凌晨 2 点,你的站点可靠性工程师不在办公室,而你面临着迫在眉睫的停机,则可能需要手动干预。
但是,最好和最敏捷的云团队:
- 跟踪紧急干预措施。
- 要求立即进行编码。
- 将紧急 ClickOps 视为需要紧急关注的技术债务。
- 拒绝 ClickOps 是一种可以接受的工程实践的舒适谎言。
随着行业状况的不断变化,不必要的 ClickOps 活动需要逐渐消失,为更可持续、无风险和可扩展的云环境管理方式让路。
要了解更多信息,请下载完整的“2025 年基础设施即代码状态”报告,并了解 ClickOps 如何影响团队的流程、效率和前景。