DevOps团队30%时间耗于手动。AI投资增67%,可自动化事件响应、合规等,但面临误报和上下文挑战。成功需高自动化成熟度与人工监督。
译自:Survey: Where AI Reduces Toil and Where It Still Falls Short
作者:Fahmid Kabir
根据DuploCloud的DevOps 报告,DevOps团队将近三分之一的时间花在手动工作上。如果你有50名工程师,平均年薪20万美元,假设所有手动工作都可以自动化,那么每年将浪费300万美元。
一项对北美和欧洲135位工程和DevOps领导者进行的新调查揭示了AI如何帮助团队节省时间以及它仍然面临的挑战。受访者来自初创企业和中端市场软件即服务(SaaS)公司,包括技术创始人、平台工程师和合规主管。
报告发现,去年AI投资增长了67%,这可以解决诸如减少人工繁重工作等优先事项。但结果好坏参半。
AI确实改进了一些有针对性的工作流程。与此同时,它也常常增加噪音和集成开销。
以下是调查结果与行业研究的结合。通过这些数据,你可以明确AI在哪里提供了可衡量的价值,以及该技术仍有哪些不足之处。
主要发现
- AI可以通过自动化有针对性的工作流程来减少手动DevOps工作,这些工作占DevOps团队时间的30%。这包括事件响应、漂移检测和合规证据收集。
- 强大的自动化成熟度是必备的前提。AI可以放大你现有的流程,无论是好的还是坏的。
- 重要的是要设置防护措施和度量标准,以避免警报疲劳、误报和代价高昂的集成蔓延。
太多DevOps工作仍然过于依赖手动
DevOps的目的是加速软件交付。然而,它仍然会拖慢团队的速度。30%的工程师时间仍然用于手动、重复的基础设施任务、审计和工具维护。
我们发现最大的痛点包括:
- 安全与合规: 超过60%的受访者将其列为他们的首要挑战之一。
- 工具蔓延: 许多团队使用多达20种工具。更糟糕的是,它们之间的可见性有限。
- 手动基础设施即代码(IaC)维护: 工作量实在太大了。事实上,它增加了开销,而非减少。
一位平台负责人指出:“一切都感觉像是用胶带粘在一起的。一个脚本坏了,所有人就得全体出动。”
结果是发布速度变慢、审计疲劳加剧和倦怠。近一半的受访者表示,他们的疲惫直接与DevOps工作负载相关。这与Google 2024年“DORA报告”呼应,该报告将不稳定的优先级与生产力下降和压力增加联系起来。
AI已成为核心优先事项
当然,团队并没有等待理想条件才开始自动化。67%的受访者表示他们在过去一年中增加了AI投资。
以下是他们提出的首要目标:
- 提高开发人员生产力
- 采用自动化和AI
- 削减基础设施和运营成本
正如一位高级工程师所说:“我一半的工作就是复制粘贴脚本,并祈祷不出问题。” 对于许多领导者来说,AI不再是实验。它关乎生存。
速度已成为指北针。54%的团队将部署频率和变更前置时间列为首要任务。
这标志着向更快、更可靠交付的明显转变。
从脚本到智能代理
2025年标志着AI智能代理的崛起。这些是能够实时观察、决策和行动的系统。
这些智能代理可以通过内置控制安全地执行基础设施任务,例如:
- 基于角色的访问
- 审批
- 审计日志
近80%的领导者表示他们愿意使用AI智能代理。但他们需要工具来良好集成并保持透明度。
当然,上下文将继续是区分有用AI和有害AI的关键。
如果没有访问组织真实、实时基础设施数据的权限,AI系统就缺乏急需的上下文,根本无法有效行动。事实上,调查指出,“没有基础设施上下文,响应可能模糊且无法执行。” 将AI连接到从IaC、CI/CD到可观测性的实时系统的团队,可以看到更高的准确性和更快的解决方案。
AI可以带来成效
事件响应可缩短平均解决时间(MTTR)
在工具完善的环境中,AI在日志和指标之间的关联可以将平均解决时间(MTTR)减少20%至40%。它能识别相关事件并推荐经过验证的运行手册,从而使工程师免于手动搜索。
遥测数据不一致的团队通常收益较小,MTTR减少最多通常为25%。
干净、带有标签的数据仍然是关键限制。
合规自动化可在数日内完成,而非数周
62%的受访者表示,合规和安全性的复杂性是他们最主要的运营负担之一。自动化证据收集可以将基础设施映射到框架,包括SOC 2。此外,它们还可以生成可供审计的报告。这通常能将准备时间从数周缩短到数天。
审计员仍然需要人工审查访问控制和数据处理实践。因此,自动化简化了证据收集,但不能取代证明。
您可以从漂移检测中获得即时投资回报
漂移检测仍然是最可靠的AI用例之一。采用自动化配置比较工具的团队报告称,他们可以在几分钟内发现漂移。这比每天手动检查要好得多。
它之所以有效,原因如下:
- 二元成功标准(配置匹配或不匹配)
- 所需业务上下文最少
- 与正常运行时间和可靠性直接相关
这个用例持续提供可衡量的回报和快速采用。
AI也有不足之处
误报和警报疲劳是严重问题
异常检测系统在早期部署期间通常会产生15%至25%的误报。每一个误报都需要手动分类,并逐渐损害信任。
如何限制误报:
- 在投入生产之前,将新模型在影子模式下运行数周。
- 要求人工批准任何自动化修复。
- 设置抑制预算以限制警报数量。
- 每季度使用带标签的数据重新调整模型。
如果没有这些防护措施,团队就会完全忽略警报。
成本优化……缺乏上下文
超过一半的团队通过AI实现成本降低,但建议常常缺乏业务上下文。算法可能会建议删除“闲置”的灾难恢复资源或缩减突发容量服务。
AI可以突出趋势,但无法完全理解风险、冗余或季节性。将每个成本建议与人工验证相结合,以避免计划外中断或合规漏洞。
分裂式实施
调查发现,大多数组织仍然是脚本驱动的,或者只是部分自动化。在这种环境中,AI往往会放大你现有的低效率。
如果你能让你的团队达到更高的DevOps成熟度,具备主动监控和策略即代码的基础,你将看到最强的投资回报。
预算显示出这种转变
证据确凿,工程领导者正在用他们的预算投票。
同时,DevOps工程师正在从手动执行转向自动化架构和AI辅助操作。
一位CTO对此总结道:“我们不是在取代人,我们是在提升他们的影响力。”
允许AI执行任务的团队影响最大
调查强调了表现最佳团队的四个一致习惯:
- 自动化优先。 这些团队在引入AI之前会加强他们的管道。
- 让人工负责监督。 每个AI行动都包含审计跟踪和具备专业知识的人工批准。
- 衡量影响。 成功的团队每周都会跟踪MTTR、部署频率和人工繁重工作。
- 逐步扩展。 他们只有在有效证明了实际投资回报后,才会将AI扩展到新的工作流程。
将AI直接集成到CI/CD、策略引擎和可观测性系统中的团队报告了最高的效率提升。他们将AI视为执行层,而不仅仅是推荐引擎。
从何入手
- 衡量您的现状。 记录一周内的每项手动操作,并估算每个类别的成本。
- 选择一个工作流程。 从摩擦最大的领域开始:合规、漂移或事件响应。
- 进行短期试点。 定义成功标准,例如MTTR减少或节省的小时数。
- 比较结果。 在团队之间分享前后数据。
- 谨慎扩展。 只有在成功得到证实后,才扩展到其他工作流程。
总结
AI正在逐步而非根本性地改变DevOps。将手动工作从30%减少到20%是一个现实且有价值的目标,大致相当于每10名员工增加一名工程师,而无需增加人员编制。
正如一位领导者所说:“如果你还没有将AI用于DevOps,你已经落后了。”
取得成功的团队分享了四个习惯:
- 他们在添加AI之前,先达到更高水平的DevOps自动化成熟度。
- 他们将AI视为辅助层,而非自主层。
- 他们持续衡量和迭代。
- 他们通过清晰的审计跟踪保持人工监督。
AI在DevOps中的最大价值在于放大作用,帮助人们将精力集中在设计、可靠性和判断上,而不是重复性任务。
我们在此处包含的见解来自DuploCloud发布的“2026年DevOps人工智能现状报告”。
阅读完整报告:“2026年DevOps人工智能现状报告”。它揭示了一个从脚本到智能代理、从手动救火到自动化优先运营的领域转变。
简而言之,团队需要结合自动化成熟度、上下文AI和强大的治理。通过这种方式,您将构建得更快、操作更安全并充满信心地扩展。



