LLM在可观测性中制造新盲区大型语言模型（LLM）的兴起对传统可观测性带来了新挑战，因其概率性、多步骤和持续演进的特性。

大型语言模型（LLM）的兴起对传统可观测性带来了新挑战，因其概率性、多步骤和持续演进的特性。团队需监控令牌使用、延迟、错误率及响应质量等新信号。LLM可观测性不仅关乎理解AI行为，更需关注提示、工作流追踪和成本效益。它促使AI应用更可靠、经济、安全，实现生产就绪。

译自：LLMs create a new blind spot in observability

作者：Shahar Azulay

运行过软件即服务（SaaS）产品的团队都熟悉这个流程：警报响起，所有人都会第一时间冲向可观测性堆栈。指标、日志和追踪一直是帮助工程师找出故障原因、用户受困原因或服务水平协议（SLA）可能出现问题之处的信号。多年来，这些工具一直运作良好。

但随后，人工智能出现了。

在围绕副驾驶、聊天界面和智能助手的所有炒作和潜力背后，工程团队悄然遇到了一些更复杂的问题：大型语言模型（LLM）驱动的应用程序行为与传统软件不同，我们所依赖的工具无法总是完全解释内部发生的情况。

为什么LLM打破了传统可观测性

如果微服务像相互契合的拼图块，那么LLM更像是即兴演员。它们接受指令，但结果并非完全可预测。这种不可预测性改变了可靠性的整个方程。

LLM工作负载具有以下特点：

一个简单的用户搜索可以触发一系列步骤，所以当出现问题时，你甚至不知道从何开始。日志无法解释模型为何犹豫不决，或者提示如何随时间推移而发生变化。指标也无法告诉你幻觉是否悄悄进入了最终呈现在客户屏幕上的回复中。

这并非传统工具不好；它们只是没有为能够如此快速推理、适应和变化的系统而构建。

一旦LLM投入生产，团队很快意识到他们每天都在关注一组新的信号：

这些都是可靠性问题，但它们无法清晰地映射到CPU、内存或请求计数上。

LLM可观测性不是一个花哨的仪表板或另一种日志格式。它是一种理解AI在生产环境中如何行为的方式。

我们不只是想知道请求是否完成；我们想知道模型尝试做了什么，它是如何实现的，以及结果是否值得付出成本。这需要新的遥测维度，包括：

提示和反馈： 提示版本、运行时替换和用户反馈需要被视为一等信号。当质量下降时，团队应该能够像追踪代码部署一样，将其追溯到提示更改。实际上，这成为了语言的版本控制。
追踪代理管道： 今天的LLM应用程序是工作流，而不是调用，因为一个步骤触发另一个，然后再触发另一个。可观测性需要跟踪整个链条：检索时间、模型调用、工具执行、解析和重试。当你能够追踪整个过程时，调试就不再是猜测游戏了。
延迟、令牌使用量和模型选择： 工程团队发现，可靠性、性能和成本紧密纠缠。一个缓慢的模型调用可以拖垮整个工作流。一个过于冗长的提示可以使令牌花费增加两倍。可观测性必须清楚地呈现这些权衡，以便团队能够做出明智的决策。
检索分析： 对于检索增强生成 (RAG) 工作负载，模型的表现仅取决于其获得的上下文。理解检索性能、成本和相关性将变得与追踪GPU使用量同样重要。正如俗话所说，垃圾进，垃圾出。但现在，垃圾来自向量存储。

许多团队在可观测性上裹足不前的一个原因是埋点。SDK、代码补丁、代理和探针似乎无穷无尽。AI技术栈的演进速度比大多数团队进行埋点的速度更快。新的模型、新的工具和新的工作流每月都会出现。在许多组织中，工程师甚至不确定哪些模型当前正在生产环境中运行。

这正在将可观测性推向堆栈的更底层。新的方法不再依赖于应用层埋点，而是直接接入基础设施本身，有时通过内核级可见性，例如eBPF，它可以在不修改代码的情况下观察流量。对于工程团队来说，这是一个胜利：在第一天就能获得可见性，即使随着时间的推移管道发生变化，也无需修改代码或重新部署服务。

对于工程团队来说，这很重要。第一天的可见性通常比迟到的完美埋点更有价值。

随着LLM可观测性的到位，团队通常会注意到一些令人惊讶的事情：最大的可靠性问题往往是伪装的成本问题。

常见发现包括：

一旦你能看到这些模式，优化就从修复bug转变为调整行为。这是一种不同的思维方式。

还有一个复杂之处。AI工作负载通常将客户数据、内部文档或专有知识直接带入提示中。这意味着可观测性数据经常包含合规团队在任何其他情况下都不会允许离开公司的信息。

许多组织通过将LLM遥测数据保留在自己的云边界内来应对，无论是通过自托管还是BYOC（自带云）模式。将提示或完成内容发送到第三方服务进行监控风险太大。

可观测性必须发展，但必须以负责任的方式发展。

AI不会取代可观测性，但它正在迫使其成熟。这种转变看起来像这样：

LLM可观测性不仅使AI驱动的应用程序更可靠，还使它们更便宜、更安全，真正值得被称为“生产就绪”的。

正如可观测性帮助SaaS扩展一样，它也将塑造下一代智能软件的成熟。