datadog monitor

43 阅读1分钟

创建监控

图中最上方会显示监控的 query 的图表。

截屏2024-09-20 下午6.29.30.png

首先是 query, query 中所定义的查询和 mtric 图表相对应。

截屏2024-09-20 下午6.39.44.png

evaluate,会判断在一段时间内的平均,最大,最小,和的 query 返回作为一个评估值。

截屏2024-09-20 下午6.41.55.png

这个 scedule 功能很有意思,可以设置每天在一个时间段去进行 evaluate 值的生成。

当一个 evaluate 值生成的时候,会评估是否需要 alert。

截屏2024-09-20 下午6.44.28.png

在 alert 阶段,会判断这个 evaluate 出来的值,是需要超出还是小于一个设定的目标值,以及什么时候可以自动的恢复。

截屏2024-09-20 下午6.46.01.png

在 通知阶段,有意思的是,可以单独设置告警的通知信息,以及告警恢复的通知信息。

下面可以设置 notify 通知给谁。

截屏2024-09-20 下午6.49.02.png

这里的 renotification 设置的很精秒,可以在出现 alert 的时候,持续性的通知对方。

截屏2024-09-20 下午6.52.34.png

测试功能也很有趣,可以测试上面的信息。

在页面中,可以查看状态并选择静音。

截屏2024-09-20 下午6.54.11.png

截屏2024-09-20 下午6.57.19.png

这个界面非常之牛逼,它可以很轻松的去按一个 time range 显示 query。

然后展示 这个 query 之间的 evaluation 值。

这样可以很快速的判断什么时候开始触发的告警。

注意一些小细节,图中其实显示了监控的创建时间以及监控在创建时间之后的状态变化。

从图中来看,估计每 minute 去算一次。(以创建开始)

尝试去修改最大值,过往的 alert 状态 其实是不会变化的。

然后会发送一条通知 recovery 的。

截屏2024-09-20 下午7.16.43.png

这里其实用直方图表示会比 events 表示更好,因为直方图可以清晰的看到持续的时间。