Grafana CTO 论可观测性市场

73 阅读9分钟

可观测性市场涌入新参与者,同时用户减少工具数量。OpenTelemetry推动标准化,但组织更关注成本控制和业务用例扩展,开源方案因此受欢迎。技术竞争加剧,可观测性扩展至非技术人员。Grafana强调融合APM和基础设施,并利用AI助手简化遥测数据访问和分析。

译自:Grafana’s CTO on the State of the Observability Market

作者:B. Cameron Gain

西雅图——可观测性持续呈现出一些新参与者进入市场的趋势,与此同时,已采用者(尤其是在大型组织中)正在减少他们依赖的可观测性工具供应商的数量。OpenTelemetry在一定程度上推动了这一趋势,这要归功于其日志、指标、追踪和其他遥测数据的工具化和标准化。

但正如Grafana 首席技术官 Tom Wilkie最近在GrafanaCONGrafana Labs的年度用户大会)上与我交谈时指出的那样,这是一种表象而非趋势,因为参与者和组织都在寻求改进他们所需的数据,特别是为了成本控制和不断增长的业务用例。Wilkie 还解释了这种转变如何推动开源扩展其范围,因为寻求削减成本的组织越来越多地转向它。组织正在寻求他们所需的技术,同时保持成本意识,并特别渴望避免供应商锁定,而开源至少在理论上可以帮助缓解这种情况。

也就是说,随着更多新参与者进入市场,他们在技术上的竞争超过了单纯的成本削减方案。目的是扩大可观测性支持的业务用例范围。可观测性正在动态扩展,扩大了组织利用它的方式,原因有很多——从为工程师提供对产品使用情况、软件性能和可维护性的更好洞察,到满足技术性较低的利益相关者(如 SRE、CTO、产品经理和其他希望获得更简化遥测数据视图的人)的需求。

也可以说,这种演变将继续推动可观测性朝着新的和有趣的方向发展。我们可能只看到了可观测性的一小部分,即它的潜在用途。可观测性实践和流程的重大扩展似乎即将到来。冒着画蛇添足的风险提及人工智能,可观测性将成为管理 LLMMCP 代理以及任何与人工智能使用相关的事务的主要方面。

争先恐后地减少黄金

可观测性持续吸引新的参与者进入市场,与此同时,组织(尤其是大型组织)正在减少他们依赖的可观测性工具的数量。OpenTelemetry 通过标准化日志、指标、追踪和其他遥测数据的工具化,帮助推动了这种转变。

根据 Wilkie 的说法,这与其说是一种趋势,不如说是一种表象。组织正在改进他们收集的数据,以管理成本并支持不断增长的业务用例。“在这种环境下,开源越来越有吸引力,因为公司寻求避免供应商锁定并减少支出。新的参与者不仅仅在成本上竞争——他们还在技术上竞争,”他说。“目标是支持更广泛的业务用例。可观测性已经从开发人员和工程师扩展到 SRE、CTO 和产品经理等利益相关者,他们希望获得更简化的遥测数据视图。”

可观测性本身的语义也存在问题。“‘可观测性’对不同的人来说意味着什么?市场开始围绕以产品为中心的定义凝聚,将可观测性定位为传统监控和 APM 的超集,”Wilkie 说。“这包括诸如 RUM(真实用户监控)和 DEM(数字体验监控)等领域,这些领域在语义上开始模糊。”

从市场动态的角度来看,随着零利率资本的结束,组织购买的可观测性工具正在整合。

“以前,如果存在可感知的业务利益,预算更容易获得。现在情况并非如此,”Wilkie 说。“企业不愿意不断增加可观测性支出。相反,他们正在整合供应商,以获得更大的购买力并在不增加成本的情况下实现增长。”

这种趋势在大型企业中尤为明显,例如以前“拥有所有可观测性工具”的主要银行。Wilkie 说:“他们过去两到三年的任务是将此减少到两到三个工具。与更少的供应商达成更大的交易可以为他们提供杠杆和效率。”

开源浪潮

开源对可观测性产生了巨大的影响,并以我认为是好的方式颠覆了它。正如 Wilkie 指出的那样,操作系统和数据库是“早期的战场”,现在可观测性正在效仿。“多年来,最大的可观测性供应商仍然是专有的,”Wilkie 说。“但是开源替代方案——如 Prometheus 和 Loki——已经使遥测信号商品化,并使它们更经济实惠和可扩展。”

Wilkie 说,OpenTelemetry 是这一趋势的最新延伸。“虽然 OpenTelemetry 在纸面上减少了供应商锁定,但由于查询语言和增值功能的复杂性,许多人仍然发现自己与特定工具联系在一起,”Wilkie 说。“工具化可能已标准化,但有意义的洞察仍然在很大程度上取决于给定供应商的实现。”

持续的成本管理和开源颠覆是当前格局的决定性特征。“专有供应商面临压力,”Wilkie 说。“他们中的一些人开始引入自适应遥测策略——Grafana 一直在投资的领域——旨在智能地降低成本和数据量。”

然而,Wilkie 说,现有企业几乎没有动力削减客户账单。“想象一下,如果像 Splunk 或 Dynatrace 这样的公司发布了一项使使用成本减半的功能——他们的股价会发生什么?”Wilkie 说。“这些供应商倾向于对冲,而不是以威胁其收入模式的方式进行创新。”

然而,可观测性不仅仅是为了节省成本。“虽然有些用例涉及优化和效率,但另一些用例涉及改善开发人员体验、诊断生产问题或了解新功能在实际环境中的表现,”Wilkie 说。“可观测性从根本上说是为了更好地理解系统。”

另一个重要的市场特征是低转换成本。“可观测性没有像社交媒体平台那样的网络效应。您只需要几个小时的数据即可获得其 80-90% 的价值,”Wilkie 说。“与操作系统或 ERP 软件等基础设施主干相比,这使得更换供应商相对容易。”

这对依赖可观测性来维持运营以及日益增长的业务模型的组织来说都是有益的。“这种竞争压力使消费者受益。供应商必须不断创新,否则就有失去业务的风险,”Wilkie 说。“尽管买方整合,但卖方整合程度很小。有大量规模可观的参与者,但没有一个主导市场。”

三大支柱的崩溃

从技术上讲,可观测性正在远离“三大支柱”(指标、日志和追踪)。虽然这些信号仍然有用,但通过它们定义可观测性已经变得具有局限性。Wilkie 说,供应商现在歪曲定义以适应他们的产品,例如,说“可观测性是日志”,因为他们销售日志管理工具。

“Grafana 的观点是,可观测性应该是选择合适的工具来完成合适的工作,”Wilkie 说。“重点正在转向融合——将 APM 和基础设施可观测性合并到统一的、语义丰富的系统中,以帮助开发人员更快地找到根本原因。”

换句话说,考虑甚至非 DevOps 人员也应该能够理解的智能指标,以便做出决策。“它不再仅仅是在大规模存储日志或指标。重点是帮助工程师更快、更直观地理解系统行为——而无需深入了解遥测格式或查询语言,”Wilkie 说。“这种转向精心策划的、用户友好的体验正在将可观测性扩展到更广泛的受众,包括业务利益相关者和客户支持团队。”

例如,Grafana 在西班牙的一家零售客户发现他们基于 Elastic 的解决方案无法处理他们的规模。“他们改用 Loki,他们的工程团队很喜欢它,但他们的客户支持团队因缺乏熟悉的 UI 而感到吃力,”Wilkie 说。“图形化日志浏览器的引入改变了这一点——突然,即使是三线支持人员也可以深入研究日志并查明诸如订单丢失之类的问题。”

人工智能,否则完蛋

当被问及下一步是什么时,Wilkie 转向了人工智能。Grafana 最近推出了其 AI 助手,该助手获得了强烈的反响。它是使遥测数据更易于访问、查询和解释(即使对于非工程师)的更大愿景的一部分。

该助手的工作原理是利用从遥测数据构建的知识图来绘制系统图并执行根本原因分析。连接到大型语言模型后,它允许用户提出诸如“我们在基础设施中的任何地方使用 NATS 吗?”之类的开放式问题,并快速获得可操作的见解。

“事实证明,这对曾经是工程师但不再有时间或不熟悉自己查询系统的高级领导者特别有价值,”Wilkie 说。“AI 助手可以帮助他们获得他们原本需要委派的答案。它还可以加快初级工程师的入职和生产力。”

虽然许多专有供应商已经宣布了类似的人工智能功能,但很少有供应商将适当的工作系统推向市场。“相比之下,Grafana 快速构建并推出了其助手,提供了符合他们更广泛愿景的体验:智能、可访问和开放的可观测性,”Wilkie 说。