驾驭AI可观测性：掌控全局，制胜未来AI高速发展，对可观测性带来新挑战。需关注模型行为、成本、GPU等，以确保AI系统可

AI高速发展，对可观测性带来新挑战。需关注模型行为、成本、GPU等，以确保AI系统可靠、安全、高效。控制遥测数据是关键。

译自：Taming AI Observability: Control Is the Key to Success

作者：Dan Juengst

AI正在快速发展。事实上，AI的进步和普及速度超过了我们自云原生以来所见过的任何变革。新模型、新工具和新用例似乎每周都在涌现。Gartner预测，到2026年，超过80%的企业将在生产环境中使用生成式AI (GenAI)。对于运行生产系统的团队来说，这种速度意味着可观测性必须跟上。

挑战何在？对于AI，监控不仅仅是关于正常运行时间和响应能力，尽管这些仍然很重要。大多数AI系统都构建在云原生堆栈之上。在云原生系统已经造成的巨大规模、成本和数据问题之上，我们现在还需要关注：

模型行为（幻觉、漂移、毒性）
Token经济学（每个答案的成本）
GPU基础设施（队列、利用率和吞吐量）

AI可观测性引入了一整套新的遥测数据来理解这些新领域。换句话说，在AI可观测性中，挑战和规模都在演变和复合。现在，你比以往任何时候都更需要控制你的AI可观测性遥测数据，以便控制成本、提高性能并更快地排除故障。

可观测性遥测控制旨在最大化价值密度：保留每美元投入带来最高可见度的信号。要实现这一点，你需要了解你的可观测性数据如何被使用，以及其成本，这样你才能决定是否值得保留。控制是关于能够并排理解使用情况和成本。

AI引入了大量新的遥测数据，以及一系列前所未见的运维挑战，而可观测性必须帮助解决这些挑战。站点可靠性工程师 (SRE) 现在发现自己负责AI和推理事件，而不仅仅是传统的インフラ故障。非确定性AI系统引入了新的、高度可见的故障模式，使得可观测性比以往任何时候都更加关键。

随着风险的增加，对AI的信心始于可观测性和控制。

我们所处的AI时代

AI领域已经从数十年的研究和周期性的AI寒冬，转变为投资和部署的疾速循环。GPU解锁了现代AI所需的并行计算能力，而生成模型将这种能力带入了日常产品，推动了各行各业的普及。最终效果是：“AI军备竞赛”、迅速扩张的供应商格局，以及工程团队需要管理的数据和应用复杂性的巨大转变。

我们所指的AI

AI有许多分支。我在这里关注的是GenAI，特别是大型语言模型 (LLM)。LLM是经过海量文本训练的AI模型，用于为聊天、代码助手和支持机器人等界面生成上下文感知的响应。这就是在生产环境中引发新可靠性、安全性和成本担忧的领域。

如何看待可观测性与AI

AI + 可观测性可以通过两个视角来看待：

AI可观测性： 将现代可观测性应用于AI工作负载和用例。
AI辅助可观测性： 在可观测性平台内部使用AI来加速调查和结果。

随着AI的普及，用户正在这两个方面进行投资。例如，由模型上下文协议 (MCP) 服务器促进的AI辅助可观测性，使客户能够将LLM和智能体与其现有系统集成，从而以编程方式实现可观测性结果。

在本文中，我将重点关注AI可观测性以及最需要它的AI用例。

为什么AI改变了可观测性问题

AI工作负载并非从零开始。它们继承了我们在云原生系统中已经面临的每一个难题：

巨大规模，处理数十亿的请求。
分布式架构，出了名的难以排查故障。
高基数，导致标签维度爆炸式增长。
存储和处理PB级遥测数据带来的持续成本压力。

云原生可观测性本身就已经是一个难以逾越的高门槛，它需要复杂的工具、持续的权衡以及某种方法来控制你的可观测性遥测数据，以兼顾成本和性能。

AI将这个门槛提得更高。除了上述所有问题，团队现在还必须应对GPU饱和和排队、LLM特有的延迟和吞吐量问题，以及像检索增强生成 (RAG) 流水线或智能体链等多步依赖，这些都引入了新的故障点。

还有一个新的经济维度：token核算以及基础设施使用与每个请求成本的紧密耦合。而且与传统系统不同，AI工作负载引入了行为风险，如幻觉、偏见、漂移和毒性，这些不仅影响可靠性，还影响信任和安全。

AI工作负载的可观测性挑战

云原生环境现有的可观测性挑战	新的AI特定可观测性挑战 ✨
巨大规模数十亿请求，PB级数据量	模型行为问题漂移、偏见、幻觉、毒性
关键任务可靠性零停机期望	Token经济学使用跟踪、成本优化、预算超支
高性能亚秒级响应要求	复杂依赖多步骤工作流、RAG流水线、智能体链
系统和故障排除复杂性微服务、分布式架构、关联性	模型性能延迟、吞吐量、质量下降
可观测性成本和数据量工具蔓延、数据保留、许可费、数据增长	GPU基础设施利用率、排队、资源争用
高基数无限标签组合、维度爆炸	评估和训练性能行为、一致性、延迟、质量下降

这里是可靠性、安全性与单位经济学汇聚之处，也是可观测性挑战不仅演变，而且在复杂性和紧迫性上都日益增长的领域。

幸运的是，存在OpenInference和OpenLLMetry等开源SDK，它们使得获取理解和解决这些AI特定挑战所需的遥测数据变得更容易。它们通过以行业标准OpenTelemetry格式提供洞察来简化这一过程。此外，NVIDIA DCGM能够以Prometheus格式导出GPU性能和利用率指标，这使得将它们整合到可观测性平台变得简单。

4种AI用例及可观测性的体现

AI市场分为四个常见的用例。每个用例都需要量身定制的可观测性方法：

用例	细分描述	可观测性要求
模型构建者	基础模型团队，运行训练流水线和评估循环。	需要在训练和推理流水线中实现可见性，并能快速检测模型性能下降、评估失败和基础设施瓶颈。
GPU提供商	平台团队，运营多租户GPU集群和调度器。	需要实时遥测数据来了解共享集群中的分配、饱和度、作业健康状况和租户性能，以保持舰队的充分利用。
AI原生企业	快速迭代并推出LLM驱动应用的产商。	应对提示链盲点、检索逻辑退化、延迟热点和内存压力。
功能构建者	在现有服务中添加AI功能的传统企业。	需要从AI层到基础设施层的内聚端到端可见性和准确的成本归因。

需要一个基础的AI可观测性策略

对于所有AI用例，一个基础策略包括：

关注重要的工作负载。
围绕用户体验、成本和安全建立清晰的服务级别目标 (SLO)。
通过使用OpenTelemetry，使相关信号成为一流的。
通过对可观测性遥测数据应用控制技术，优化成本和性能。

这就是随着AI普及的激增，你如何快速交付、控制开支并保持高信任度的方法。或者换句话说：在AI与规模相遇的地方应用可观测性，因为那正是工程和业务影响复合增长之处。

AI的可观测性是可靠、安全且经济高效的LLM、RAG和GPU系统的操作系统。通过控制使其成为一流，其余自然水到渠成。