企业部署AI面临数据科学家与运维孤岛。OpenTelemetry是共识。需回归可观测性基本原则,关注安全合规,打破组织壁垒,并寻找商业价值。AI是工具,不会取代可观测性团队。
译自:Breaking Data Team Silos Is the Key To Getting AI to Production
作者:Frederic Lardinois
企业正在经历“错失恐惧症”(FOMO),并争相部署基于AI的服务和AI代理,但对于负责维护这些系统在生产环境中运行的团队来说,正在形成的模式开始变得熟悉:数据科学家和运维团队之间正在形成孤岛,正如多年前开发者和运维团队之间一样。但仍有希望。
“市面上的每一项服务——比如 AWS Bedrock 和 SageMaker——都支持 OpenTelemetry,这很棒,”IBM的可观测性专家 Thanos Matzanas 说。“我们首次达成共识,认为这就是未来的发展方向。”
在AWS re:Invent 2025录制的本期《The New Stack Makers》节目中,我与 Matzanas 和他的IBM同事 Martin Fuentes 坐下来,讨论了为什么AI可观测性仍然是事后才考虑的事情,企业可以从过去的平台转型中学到什么,以及为什么打破组织孤岛可能比任何新的监控工具都更重要。
孤岛问题重现
Matzanas 和 Fuentes 认为,挑战不在于新技术,而在于旧的组织模式正在重演。不久前,数据团队过去孤立地开发模型,这些模型通常只服务于内部目的。现在,他们突然间需要负责面向客户且具有实际收入影响的应用程序。
Matzanas 解释说:“这是他们首次参与其中。”“通常,他们是独自做自己的事情,而现在他们之所以参与进来,是因为他们实际上在服务真实客户,而不是内部客户,而是有真实收入的真实客户。我认为,现在他们感受到了同样的压力,这是过去所有其他团队都曾感受过的。”
Fuentes 看到了类似的动态。AIOps和站点可靠性工程(SRE)社区花费数年建立了可观测性最佳实践,其中许多可以借鉴到当前,但“我们仍然需要弄清楚如何衡量附加在模型上的商业价值,”他说。
不要忘记基本原则
当被问及他们会给刚刚开始其AI之旅的企业什么建议时,Matzanas 认为归根结底就是回归基本原则。
“不要忘记基本原则。这与任何其他技术栈没有什么不同,”他说。“你的指标是什么?你的KPI是什么?你的[服务水平目标]是什么?你如何监控围绕AI应用程序的服务?你如何监控你的向量数据库?你如何监控你的API?如果你涵盖了所有基本原则,那么当AI到来时,你就拥有了一个良好的基础。”
然而,挑战在于AI模型是不同的,因为它们不确定性。传统的用户体验监控之所以有效,是因为你可以从用户界面一直追溯到基础设施的请求。对于AI,许多反馈循环依赖于人类。
“我们非常依赖用户反馈来了解情况,”Matzanas 说。“而且很难确定交互的质量。”
设计即安全与合规
这意味着,设置防护措施对于将模型投入生产尤为重要,但 Fuentes 强调,AI工作负载需要与传统应用程序相同的治理严谨性——甚至可能更多。“这不仅是信任模型推理的结果,还涉及到关于数据如何用于训练模型的担忧,”他说。
这也关乎回归现有工具,如基于角色的访问控制(RBAC)、审计日志,以及正确记录模型和代理的训练方式以避免偏见。“我们学到许多对传统工作负载很重要的东西,没有理由不将它们应用于AI。”
低垂的果实:让人们齐聚一堂
当被问及从何处开始时,两人都指出了管理组织变革的重要性,而不是单纯关注技术采纳。
Matzanas 说:“尽快打破孤岛。”“我们知道怎么做,因为我们过去已经做过。让你的数据人员参与进来。向他们展示在生产环境中的样子。不要让他们孤立地呆在一边。”
Fuentes 提供了一个补充性的观点:首先找到商业价值。
他说:“如果你希望你的领导层认可并提供资源,以便在你的应用程序中应用生成式AI(GenAI)模型或代理,那么它最终需要能提供商业价值。”“与你的用户讨论哪些问题可以通过生成式AI来解决。”
AI会取代可观测性团队吗?
两人都反驳了AI将消除可观测性领域人类角色的观点——至少对于关键系统而言。
Matzanas 说:“因为在许多情况下,可观测性至关重要——想象一下如果你正在监控一个医疗保健应用程序——你真的会把这些交给AI处理吗?”“不可能。我看不出有任何飞行员会很快失业。”
Fuentes 同样乐观。“AI很可能不会真正取代人类,”他说。“它只是我们可以用来提高生产力的另一种工具。”