可观测性行业正从传统支柱转向OpenTelemetry开放框架及AI平台。数据统一和AI驱动分析,解决信息过载,实现实时根因分析。运营商从被动排障转向主动高效运维。
译自:From pillars to platform: How open observability data is changing the industry
作者:Ted Young
随着可观测性行业从专有系统转向开放框架,传统的指标、日志和追踪“支柱”已不复存在。取而代之的是,随着集成数据流和OpenTelemetry等开放标准的出现,帮助企业理解其全新统一信息的竞赛正在进行。
这不再仅仅关乎访问权限。运营商现在面临信息过载,每天数千条警报涌入他们的仪表盘。挑战在于如何在所有混乱中确定问题的真正原因以及如何解决它。在可观测性支柱时代,这种有针对性的分析是困难的,因为断开连接的数据导致了断开连接的工作流。公司使用定制的专有解决方案——有时甚至是独立的团队——来管理指标、日志、追踪和配置文件。信号被孤立,合并它们是一项耗时且昂贵的工作。
现在,随着大多数可观测性供应商围绕OpenTelemetry这一开放框架聚合,这些支柱正在瓦解。数据不再是孤立、独立的信号,而是整合到一个数据流中,从而消除了对特定信号系统或团队的需求。相反,新时代将由全面的、由AI驱动的平台定义,这些平台使运营商能够以更动态的方式使用统一的遥测数据。
“随着可观测性行业从专有系统转向开放框架,传统的指标、日志和追踪‘支柱’已不复存在。”
无论是日志、追踪还是指标,都不再重要。重要的是所提供的智能。通过一个单一的搜索框,运营商可以使用自然语言提示同时查询所有信号,并返回一个最终答案。这一转变有望改变运营商检测和补救那些困扰用户并增加不必要运营成本的问题的方式——只要它以用户友好的方式设计。
聚焦工作流
运营商过去常常抱怨无法访问足够的数据。但随着OpenTelemetry的日益普及导致更多集成数据集的出现,问题迅速变为如何以对最终用户有帮助的方式过滤和呈现所有可用信息。
数据越是集成,就越是嘈杂。结果是,重要的信号——运营商试图解决的问题的根本原因——消失在所有噪音中。这很合理:人类大脑并非旨在从数千个数据点中同时找到相关性和因果关系。
这就是为什么可观测性供应商现在不再专注于针对信息子集的定制功能,而是竞相构建AI引擎,能够将指标、日志、追踪和配置文件结合起来分析,以无缝直观的方式提供可操作和可审计的建议。而在企业环境中,这意味着要模拟人类操作员的工作流。
“数据越是集成,就越是嘈杂……人类大脑并非旨在从数千个数据点中同时找到相关性和因果关系。”
例如,过去当出现面向用户的问题时,运营商会收到警报,然后查看大量仪表盘,试图在本质上是图表上的一堆波浪线之间找到相似之处。试图找出可能导致问题的十几个配置错误的Kafka节点可能需要很长时间,并且可能需要仍然稀缺的技能。运营商通常必须从一个单一的追踪作为起点,然后细致而繁琐地从症状到诊断进行工作。
相反,AI可以作为集成可观测性数据集之上的智能层,向运营商发出问题警报,并提供可能的根本原因和建议的后续行动。AI引擎可以分析更广泛的信息集,而不仅仅是单一的追踪。例如,不仅仅是单独的追踪,还可以是嵌入有配置文件或包含追踪链接的日志。
为了有效过滤噪音,组织需要一套新的核心能力,包括:
- 审计追踪: 用户必须能够验证AI系统的操作,并访问底层分析引擎用于支持结论的证据。
- 知识图谱: 不能仅仅将大量数据倾倒到一个地方。需要能够描绘信号之间如何关联,包括与其他服务的交互及其所有派生信息。
- 成本控制: 控制成本的最佳方法是不处理不需要的数据。还需要能够追踪那些随着时间快速累积的小的、百分之几的使用量增长。
结论:转向AI
可观测性行业从孤立的支柱到开放的、AI驱动的平台的演变标志着一个根本性的转变。随着OpenTelemetry推动数据统一以及AI引擎提供实时根本原因分析,运营商终于从淹没在警报中转向根据真实洞察采取行动。
这在实践中会是怎样的?这不仅仅是自动化警报,更是SRE风格的AI代理在后台运行持续分析,以简单、对话式界面呈现实时洞察。运营商将不再在仪表盘中苦苦寻找,而是提出问题并获得答案,从被动故障排除转向主动、成本效益高的操作。
展望未来,可观测性不再仅仅是收集信号。它是关于结合开放数据标准、成本感知遥测管道和直观界面,将噪音转化为智能,以便运营商能够更快地检测、诊断和修复问题——甚至在用户注意到之前。