AI赋能未来IT运维

31 阅读6分钟

2025年AI社区聚焦MCP格式和操作型AI框架。AIOps需人工监督,但AI在事件管理、ModelOps、文档、多模态AI及AI辅助部署方面潜力巨大,智能体正演变为企业OS。

译自:How AI Will Help Tomorrow's IT Operations

作者:Joab Jackson

2025 年伊始,AI 社区便集体决定采用 MCP 格式构建智能体系统,并将重点转向构建操作型 AI 框架,这使得这一年以轰轰烈烈的方式拉开序幕。

然而,对于 IT 运营而言,要让 AI 智能体完成有用的工作仍然需要大量的规划。目前,将代码更改推送到生产环境仍然需要人工监督。

在 TNS 的一项调查中,Spectro Cloud 的杰出架构师 Kevin Reeuwijk 指出:“我们计划更多地支持 AI 运营洞察,而非纯粹的 AI 运营。即使一个 AIOps 智能体在 90% 的时间里是正确的,它在另外 10% 的时间里采取的行动也可能是灾难性的。但 AI 智能体在解析日志、关联事件以提供有意义的系统健康洞察以及推荐行动方面将表现出色。我只是暂时不会相信一个智能体能够无人监督地运行。”

尽管如此,即使在监督模式下,也有许多方法可以开始在生产环境中使用 AI。

以下是 TNS 在 2025 年发表的一些最能反映这一进展的文章。

真正的端到端事件管理

当今 IT 面临的最大挑战之一是跨工具和观测平台时上下文的丢失。PagerDutyCristina Dias 写道,运营的必备条件之一将是“一个统一的 AI 和自动化层,支持从检测到持续学习和预防的完整事件生命周期。”

“当事件发生时,团队无法承受在不连贯的工具之间跳跃或丢失上下文……这一层消除了零碎集成的需求,因为在零碎集成中,AI 或自动化只解决了链条的一部分,或需要大量集成才能有效工作。”

AI 驱动运营的 7 个不可协商事项

欢迎来到 ModelOps

为您的组织构建和微调模型的团队可能是一群数据科学家,但最终该团队必须整合到软件开发生命周期的其余部分中,因此,GitLabDavid DeSanto 预测了一个新的学科:ModelOps。

ModelOps 将是当今 DataOps(负责准备和管理数据)与 MLOps(负责处理必要的 AI 模型的开发、训练、部署和版本控制)的集合。DeSanto 写道,由此产生的“ModelOps 将提供一个全面的框架,确保 AI 成功整合到 软件开发工作流程 中。”

2025 年 AI 将迎来的四大变革

更好的文档

IT 运营中一个迫切需要改进的领域是文档。企业 IT 文档很少能保持最新,但考虑到 AI 对文档的巨大需求,这种情况需要改变。内部信息的聊天机器人叠加层将受益于关于内部系统的最新数据。

TNS 记者 Jennifer Riggins 报道称,根据 Google 年度 DevOps 研究与评估 (DORA) 报告,AI 采用率增加 25% 导致文档质量提高了 7.5%。Thoughtworks 首席技术官 Rachel Laycock 表示,行业“过于关注生产 [新项目] 代码的效率,但这实际上并不是问题”。相反,应该研究 AI 如何帮助现有系统。

真正解决工程瓶颈的 AI 用例

多模态 AI

管理员喜欢使用命令行。它速度快,一旦记住了一些关键的按键,就很容易使用。但 Asperitas 的 Derek Ashmore 指出,AI 有望拓宽您进行沟通的渠道。

他写道:“想象一位工程师拿着智能手机对着一个嘈杂的泵,描述一种奇怪的振动。AI 不仅仅是解析语音;它还能视觉识别硬件,聆听模式,查阅历史传感器日志,并立即调出正确的维护手册。”

这就是企业工作流程中多模态 AI 的承诺,其中系统将融合文本、图像、音频、视频甚至传感器输入,为您的诊断工具提供类似人类的上下文感知能力。

当 AI 开始“视听”,IT 必须重新思考

AI 将把 AI 投入运营

如果所有这些 AI 辅助看起来设置和维护起来可能会令人头疼,那么您很幸运,因为您可以获得一些帮助……来自 AI。

“好消息是,我们实际上可以使用 AI 来将 AI 投入运营。事实上,考虑到 LLM 应用程序堆栈的复杂性,这是必然的,”PagerDuty 的 Dormain Drewitz 在一篇文章中写道,该文章设想了一个未来,未来的 AI 的首要工作是设置其他 AI 工具。

毕竟,机器学习系统能够自动化运行监控系统所需的所有步骤,它能够从关键数据中过滤掉噪音,从而进行诊断。

Drewitz 写道:“机器学习不仅能够帮助实现上下文化、关联和压缩这三个 C,而且它在这方面比人类做得更好。通过将事件处理与条件逻辑连接起来,应用预定义的任务,我们可以加速复杂系统中事件的解决。即使服务无法以自愈方式完全恢复,必须介入的团队也可以拥有更好的上下文和起点来排查问题。”

将 AI 投入运营:加速自动化、DataOps、AIOps

智能体企业操作系统

在另一篇投稿文章中,Block 工程副总裁 Angie Jones 描述了这家金融服务提供商如何构建了一个基于 MCP 的智能体操作框架,该框架允许智能体相互通信,自动化并消除了完成任务所需的许多手动交接。如今,Block 超过 6,000 名员工使用 Goose。

Jones 写道:“就在几个月前,阅读 Snowflake 仪表盘、从最近的 Slack 聊天中提取上下文并生成一份包含洞察和标记异常的每周 Google Doc 需要数天的人工操作。现在,人类可以在几分钟内协调这个过程,引导 Goose 获取相关数据,同时对最重要的内容进行判断。”

AI 智能体正在演变为“企业操作系统”

TNS 分析师 Lawrence Hecht 对本文亦有贡献。