AI高速发展,对可观测性带来新挑战。需关注模型行为、成本、GPU等,以确保AI系统可靠、安全、高效。控制遥测数据是关键。
译自:Taming AI Observability: Control Is the Key to Success
作者:Dan Juengst
AI正在快速发展。事实上,AI的进步和普及速度超过了我们自云原生以来所见过的任何变革。新模型、新工具和新用例似乎每周都在涌现。Gartner预测,到2026年,超过80%的企业将在生产环境中使用生成式AI (GenAI)。对于运行生产系统的团队来说,这种速度意味着可观测性必须跟上。
挑战何在?对于AI,监控不仅仅是关于正常运行时间和响应能力,尽管这些仍然很重要。大多数AI系统都构建在云原生堆栈之上。在云原生系统已经造成的巨大规模、成本和数据问题之上,我们现在还需要关注:
- 模型行为(幻觉、漂移、毒性)
- Token经济学(每个答案的成本)
- GPU基础设施(队列、利用率和吞吐量)
AI可观测性引入了一整套新的遥测数据来理解这些新领域。换句话说,在AI可观测性中,挑战和规模都在演变和复合。现在,你比以往任何时候都更需要控制你的AI可观测性遥测数据,以便控制成本、提高性能并更快地排除故障。
可观测性遥测控制旨在最大化价值密度:保留每美元投入带来最高可见度的信号。要实现这一点,你需要了解你的可观测性数据如何被使用,以及其成本,这样你才能决定是否值得保留。控制是关于能够并排理解使用情况和成本。
AI引入了大量新的遥测数据,以及一系列前所未见的运维挑战,而可观测性必须帮助解决这些挑战。站点可靠性工程师 (SRE) 现在发现自己负责AI和推理事件,而不仅仅是传统的インフラ 故障。非确定性AI系统引入了新的、高度可见的故障模式,使得可观测性比以往任何时候都更加关键。
随着风险的增加,对AI的信心始于可观测性和控制。
我们所处的AI时代
AI领域已经从数十年的研究和周期性的AI寒冬,转变为投资和部署的疾速循环。GPU解锁了现代AI所需的并行计算能力,而生成模型将这种能力带入了日常产品,推动了各行各业的普及。最终效果是:“AI军备竞赛”、迅速扩张的供应商格局,以及工程团队需要管理的数据和应用复杂性的巨大转变。
我们所指的AI
AI有许多分支。我在这里关注的是GenAI,特别是大型语言模型 (LLM)。LLM是经过海量文本训练的AI模型,用于为聊天、代码助手和支持机器人等界面生成上下文感知的响应。这就是在生产环境中引发新可靠性、安全性和成本担忧的领域。
如何看待可观测性与AI
AI + 可观测性可以通过两个视角来看待:
- AI可观测性: 将现代可观测性应用于AI工作负载和用例。
- AI辅助可观测性: 在可观测性平台内部使用AI来加速调查和结果。
随着AI的普及,用户正在这两个方面进行投资。例如,由模型上下文协议 (MCP) 服务器促进的AI辅助可观测性,使客户能够将LLM和智能体与其现有系统集成,从而以编程方式实现可观测性结果。
在本文中,我将重点关注AI可观测性以及最需要它的AI用例。
为什么AI改变了可观测性问题
AI工作负载并非从零开始。它们继承了我们在云原生系统中已经面临的每一个难题:
- 巨大规模,处理数十亿的请求。
- 分布式架构,出了名的难以排查故障。
- 高基数,导致标签维度爆炸式增长。
- 存储和处理PB级遥测数据带来的持续成本压力。
云原生可观测性本身就已经是一个难以逾越的高门槛,它需要复杂的工具、持续的权衡以及某种方法来控制你的可观测性遥测数据,以兼顾成本和性能。
AI将这个门槛提得更高。除了上述所有问题,团队现在还必须应对GPU饱和和排队、LLM特有的延迟和吞吐量问题,以及像检索增强生成 (RAG) 流水线或智能体链等多步依赖,这些都引入了新的故障点。
还有一个新的经济维度:token核算以及基础设施使用与每个请求成本的紧密耦合。而且与传统系统不同,AI工作负载引入了行为风险,如幻觉、偏见、漂移和毒性,这些不仅影响可靠性,还影响信任和安全。
AI工作负载的可观测性挑战
| 云原生环境现有的可观测性挑战 | 新的AI特定可观测性挑战 ✨ |
|---|---|
| 巨大规模 数十亿请求,PB级数据量 | 模型行为问题 漂移、偏见、幻觉、毒性 |
| 关键任务可靠性 零停机期望 | Token经济学 使用跟踪、成本优化、预算超支 |
| 高性能 亚秒级响应要求 | 复杂依赖 多步骤工作流、RAG流水线、智能体链 |
| 系统和故障排除复杂性 微服务、分布式架构、关联性 | 模型性能 延迟、吞吐量、质量下降 |
| 可观测性成本和数据量 工具蔓延、数据保留、许可费、数据增长 | GPU基础设施 利用率、排队、资源争用 |
| 高基数 无限标签组合、维度爆炸 | 评估和训练性能 行为、一致性、延迟、质量下降 |
这里是可靠性、安全性与单位经济学汇聚之处,也是可观测性挑战不仅演变,而且在复杂性和紧迫性上都日益增长的领域。
幸运的是,存在OpenInference和OpenLLMetry等开源SDK,它们使得获取理解和解决这些AI特定挑战所需的遥测数据变得更容易。它们通过以行业标准OpenTelemetry格式提供洞察来简化这一过程。此外,NVIDIA DCGM能够以Prometheus格式导出GPU性能和利用率指标,这使得将它们整合到可观测性平台变得简单。
4种AI用例及可观测性的体现
AI市场分为四个常见的用例。每个用例都需要量身定制的可观测性方法:
| 用例 | 细分描述 | 可观测性要求 |
|---|---|---|
| 模型构建者 | 基础模型团队,运行训练流水线和评估循环。 | 需要在训练和推理流水线中实现可见性,并能快速检测模型性能下降、评估失败和基础设施瓶颈。 |
| GPU提供商 | 平台团队,运营多租户GPU集群和调度器。 | 需要实时遥测数据来了解共享集群中的分配、饱和度、作业健康状况和租户性能,以保持舰队的充分利用。 |
| AI原生企业 | 快速迭代并推出LLM驱动应用的产商。 | 应对提示链盲点、检索逻辑退化、延迟热点和内存压力。 |
| 功能构建者 | 在现有服务中添加AI功能的传统企业。 | 需要从AI层到基础设施层的内聚端到端可见性和准确的成本归因。 |
需要一个基础的AI可观测性策略
对于所有AI用例,一个基础策略包括:
- 关注重要的工作负载。
- 围绕用户体验、成本和安全建立清晰的服务级别目标 (SLO)。
- 通过使用OpenTelemetry,使相关信号成为一流的。
- 通过对可观测性遥测数据应用控制技术,优化成本和性能。
这就是随着AI普及的激增,你如何快速交付、控制开支并保持高信任度的方法。或者换句话说:在AI与规模相遇的地方应用可观测性,因为那正是工程和业务影响复合增长之处。
AI的可观测性是可靠、安全且经济高效的LLM、RAG和GPU系统的操作系统。通过控制使其成为一流,其余自然水到渠成。