Observability:更智能的告警来了:更快的分诊、更清晰的分组和可操作的指导

66 阅读3分钟

作者:来自 Elastic Drew Post

探索 Elastic Stack 告警的最新增强功能,包括改进的相关告警分组、将仪表盘链接到告警规则,以及将调查指南嵌入到告警中。

在 9.1 版本中,我们对告警进行了重大升级,帮助 SRE 和运维人员更快地过滤噪音,更快理解发生了什么,并在更少猜测的情况下采取有意义的行动。

以下是新功能:

改进的相关告警分组,带有相关性评分和推理

我们增强了相关告警检测,超越了表层的关联。告警现在基于相关性评分分组,该评分反映了它们在以下维度上的关系强度:

  • 共享的实体或资源(例如相同的主机、pod 或服务)

  • 时间上的接近(告警在可疑的短时间窗口内触发)

  • 信号相似性(例如日志、指标和 traces 中的峰值指向相同的故障模式)

更重要的是,我们现在展示了原因。你会看到为什么一个告警被分组,不管是因为共享相同的 Kubernetes pod,具有相似的日志模式,还是由相同的上游异常触发。这让用户对分组逻辑更有信心,并加速了根因分析。

将仪表盘链接到告警规则并获得智能建议

你现在可以将仪表盘直接链接到告警规则,让响应者立即通过可视化方式查看该告警最重要的指标或日志。再也不用手忙脚乱地记住该检查哪个仪表盘 —— 只需点击即可。

而且我们让这一功能更智能:Elastic 现在会根据告警的来源、规则逻辑或被监控的实体,自动推荐相关的仪表盘,帮助用户无需事先配置就能快速进入正确的视图。

调查指南嵌入到告警中

现在每个告警都可以配置一个调查指南,即一组预配置的、具备上下文感知的指令或后续步骤,专门针对该告警进行定制。可以把它看作是一个嵌入在你需要的时间和位置的操作手册。

用它可以:

  • 记录你团队的运行手册和标准分诊步骤,或链接到已有的运行手册

  • 引导初级工程师或值班响应者处理不熟悉的情况

  • 自动化根本原因分析的前几个步骤

为什么这很重要

这些改进的核心都是为了减少检测时间 (MTTD) 和解决时间 (MTTR)。通过:

  • 更智能(且透明)地对告警分组

  • 在你需要的时候给你所需的 dashboards

  • 在每个告警中嵌入面向行动的指南

我们让你更接近真正精简的事件响应工作流;不需要来回切换,不需要猜测,只有清晰。

另外,请看看我们在 Elastic Observability Labs 里与分析相关的其他文章:

原文:www.elastic.co/observabili…