2026年,OpenTelemetry能否力挽可观测性狂澜?

5 阅读10分钟

可观测性成本与复杂性攀升,传统模式价值下降。需通过边缘智能、上下文AI及OpenTelemetry标准化,降低门槛,提升可用性,扭转成本与价值不对称的局面。

译自:Can OpenTelemetry Save Observability in 2026?

作者:B. Cameron Gain

可观测性未能达到预期。随着价格持续上涨,痛苦感日益加剧。

今年,人们预感到大规模管理基础设施的复杂性将增加。为了应对公共云价格的飙升,许多组织已转向私有云,这通常会导致更复杂的局面。

在大规模部署中,组织现在越来越多地面临跨越公共云、私有云和本地系统的多云及异构环境。在许多情况下,成本的积累被认为是令人望而却步的。

与此同时,可观测性对于大大小小的组织来说仍然是必需品。2025年,可观测性领域的参与者和供应商反映了他们在帮助客户使用解决方案方式上的转变,特别是通过帮助客户避免每月13万美元或更高的意外可观测性账单。(请关注这如何发生,因为可观测性指标的扩展速度通常远超计算资源的扩展速度。)

Gartner分析师Pankaj Prasad和Matt Crossley在7月发布的可观测性与监控年度炒作周期报告中写道,多达84%的现有可观测性用户在日常监控职责的成本和复杂性方面面临困境。尽管如此,他们总结道,可观测性在解决这些技术挑战方面具有独特的优势。

Grafana Labs首席技术官Tom Wilkie告诉我:“核心问题是可观测性的经济学多年来一直颠倒。成本随着遥测数据量的增加而线性增长,但价值却没有。”“我们需要的是,我们现在也终于看到的是,一种成本与洞察力而非数据摄入量成比例的模型。”

重新思考“大数据湖”模式

2025年,可观测性市场常被视为头重脚轻且过于中心化,为客户带来了高度的挫败感和成本问题,而其价值似乎正在下降。

ControlTheory的创始人兼首席执行官Bob Quillin告诉我,大型供应商通过将所有数据投入到一个大型系统或数据湖中来收取索引和保留费用。他说,一种更具反向思维的模型是,在边缘部署更多智能并使用反馈系统。

Quillin说:“通过在边缘提炼数据,公司只上传AI工具所需的数据,让系统在现有工具旁边运行,而不是试图凌驾于它们之上。”“过去20年市场的发展方式是把所有东西都扔到一个大型系统中,用户为索引、保留等所有这些付费。但现在我们有了更智能的系统,你不需要把所有数据都放上去。”

事实上,许多平台仍然鼓励团队收集所有数据,同时对哪些遥测数据真正有价值提供有限或不透明的可见性。

Chronosphere的现场首席技术官Bill Hineline告诉我:“由此产生的意外账单和管理它们所需的运营开销增加,造成了一种印象,即可观测性本身是一项糟糕的投资,而实际上是投资管理不善。”

AI(加上下文)如何提供帮助

当然,人工智能在2025年发挥了作用,迫使组织和平台工程团队选择如何整合人工智能。至少,尤其是在我测试过的工具中——例如Grafana的AI——它没有坏处。事实上,如果使用得当,它会有帮助。

然而,人工智能在解释日志数据方面能提供特别好的支持。Quillin说,日志本质上是一种语言,“如果你把正确的信息输入大型语言模型中”,它就能帮助解释发生了什么。

Quillin说,用户应该能够“通过后端API将日志输入他们喜欢的LLM中”。“这有助于发现模式,例如重复的关键指标,并协助进行模式分析和热图,从而从噪声中分离出信号。

“随着AI生成更多代码,日志的复杂性并没有降低,这使得有必要退一步审视数据分析的基本原理。由于日志是语言,如果你将正确的信息输入LLM,它实际上可以帮助解释日志发生了什么——它会查看你的所有日志并将其浮现出来,并进行大量的模式分析。”

Wilkie说,在许多方面,人工智能在2025年进一步“抬高并错误设定了预期”。

他说:“人工智能确实很有帮助,但前提是它要基于上下文,而不是被当作撒在可观测性之上的魔法层。”“许多供应商犯的错误是,以为只要存在人工智能就能增加价值,而实际上,人工智能只有在底层遥测数据高质量、结构良好并跨系统连接时才能发挥作用。”

Wilkie说,2025年观察到的真正机遇是:“将可观测性从一项仅限专家参与的学科转变为每个工程师——甚至非工程师——都能使用的AI。”

他说:“更重要的是,人工智能不是让团队淹没在更多数据中,而是帮助他们从已有数据中提取更多价值。”“人工智能在2026年不会取代操作员,但它最终将帮助他们跟上复杂性曲线。”

Dynatrace的NORAM解决方案工程副总裁David Jones告诉我,表面化地应用人工智能可能会带来生产力提升的感觉,但未能提供真正的运营清晰度。

Jones说:“许多工具将生成式AI叠加在原始遥测数据之上,这可能有助于查询,但并不能从根本上改善理解。”“这就是混淆产生的地方:没有上下文的AI会放大不确定性,而不是减少不确定性。”

OpenTelemetry:有望产生巨大影响

随着每个层面的复杂性增加,以及环境通过可观测性变得更难管理,入门门槛仍然很高——这不仅是指理解如何利用日志、指标和追踪(我个人认为它们并非所谓可观测性的支柱,而是与其他指标一起必须使用的基本且相互关联的组件)。

正是在这一点上,OpenTelemetry (OTel) 在2025年取得了巨大进展,不仅在不同编程语言之间,而且在指标、日志和现在的追踪方面变得更加易于访问。得益于标准化,它显著降低了入门门槛,这就是我们看到许多新兴和不断发展的可观测性参与者提供解决方案的原因。

现代系统变得越来越难以操作,而这种日益增长的复杂性是入门门槛居高不下的一个重要原因。

Wilkie说:“OpenTelemetry在这方面确实有所帮助:通过标准化跨语言和信号类型的插装,它消除了大量的摩擦。”“团队不再需要拼凑供应商特定的SDK,新的可观测性参与者也能更容易地进入市场,因为插装不再是护城河。”

Wilkie说,OpenTelemetry通过为组织提供供应商中立性来提供帮助,允许组织更容易地转向那些真正倾听并解决客户成本和价值担忧的供应商。

他说,事实上,OpenTelemetry有助于“打破对专有代理和不透明定价的旧有依赖”。“当你将OTel与智能系统(智能系统可以将数据减少80%到90%,同时提高剩余数据的价值)结合时,你开始扭转局面,使成本与价值而非遥测数据量成比例。可观测性没有失败;是商业模式失败了。”

然而,Wilkie说,标准只有在得到广泛采用时才有用,而遗留系统“会在组织中存在数十年”。

他说:“重新插装的成本是令人望而却步的。”“OTel正在使新项目工作变得更容易,但客户仍然需要将新旧系统编织成一个连贯的画面——并且需要不将客户锁定在一种做事方式上的可观测性系统。”

我敢打赌,如果OpenTelemetry的体验能够得到改善,它将发挥重要作用。工具本身的复杂性也需要降低,这样可观测性就不仅仅是组织内部顶尖的可观测性专家才能使用。

供应商开始意识到非技术用户也应该能够利用可观测性和遥测数据——但我们还没有达到那个阶段。也许有一天,AI代理将无需人工干预就能监控可观测性指标,并排除故障和预测未来的故障。但那一天不会在2026年到来。

弥合可用性差距

与此同时,非技术利益相关者也必须投入时间和精力学习如何解释遥测数据,无论可观测性工具变得多么简单易用。

Quillin说:“OpenTelemetry正在通过民主化可观测性的实现方式,从根本上改变未来的潜力。它已成为一个事实上的标准,降低了入门门槛,因为组织现在正在将其标准化,而不仅仅是考虑它。”“使用基于这些标准的开源工具,可以进行一场不那么商业化、更具权威性的关于行业中更广泛问题的对话。”

Wilkie也认为OpenTelemetry解决了一部分问题:标准化和生成遥测数据。

他说:“但可用性差距,特别是对非专家而言,仍然存在。”“如今的插装仍然感觉更像是一种负担:太多的配置旋钮,太多的语义约定需要记住,当服务以令人惊讶的方式运行时,太多的边缘情况。标准解决了互操作性,而不是可用性。所以是的,OTel将发挥更大的作用,但前提是它变得更简单。”

OpenTelemetry可能最终不会“拯救”可观测性,但它通过改进插装的标准化和不同工具之间的互操作性,将大有裨益。它还应成为提供商的跳板,让他们减少对集成的担忧,并能开发出真正赋能可观测性应有功能的解决方案,不仅服务于内部专家,也服务于所有利益相关者。

Hineline说:“当OpenTelemetry被视为整个企业的基础设施时,可观测性平台可以提供更一致、开箱即用的洞察,而无需依赖高度定制的仪表板。”“如今,许多仪表板仍然由专家为专家构建,这导致了仪表板的蔓延,并限制了谁能有效地使用可观测性。当与强大的策略相结合时,OpenTelemetry可以通过在团队之间实现更一致、可重用的视图来显著提高可用性。”