解锁可观测性密码:一文掌握观测云日志监控器超能力

25 阅读3分钟

观测云提供一站式云、云原生、应用及业务的可观测解决方案,日志监控器是其核心功能之一,它不仅仅是一个被动的日志收集和存储工具,更是一个主动、智能的日志分析与监控告警平台。它的设计目标是帮助开发、运维和业务团队从海量的日志数据中快速发现问题、定位根因并及时响应。日志监控器的核心价值在于将非结构化的日志数据转化为可观测的结构化信息,并通过监控和告警机制,使其成为保障系统稳定性和业务连续性的有力工具。

通知对象

观测云支持向钉钉、企业微信、飞书等渠道发送通知,使用时需要先创建通知对象。点击「监控」 -「通知对象管理」-「新建通知对象」。

填写消息推送机器人的 Webhook 地址。

告警策略

点击「监控」 -「告警策略管理」-「新建告警策略」。通过关联监控器与告警策略,系统可在异常发生时即时向指定对象发送通知。策略支持配置名称、描述、时区与操作权限等基础信息,并允许按告警等级、通知对象两个维度灵活定义通知规则。针对高紧急度场景可启用升级通知机制,同时支持自定义通知发送时段,以适配不同时段的业务需求。

日志监控器

「监控」 -「监控器」-「新建监控器」,选择“日志检测”,依次配置“检测配置”、“事件通知”、“告警配置”。

检测配置

如下图是按主机和服务的维度,统计 5 分钟内 mall-admin 服务中状态是 error 的日志条数。

当错误数大于等于 2 条时触发致命告警。

事件内容

支持自定义事件通知的标题与内容。

插入日志变量

点击"变量"选择需要展示的变量名,比如 host、service。

插入链接

点击“链接”插入日志查看地址,实现告警界面一键跳转到观测云。

附加信息

点击"添加附加信息"选择日志字段(如 message),在告警内容中展示。

点击“变量”插入 {{df_related_data.message}},建议截取前200字符避免超出告警工具长度限制。

告警策略

配置告警策略后,系统将向对应对象发送通知。

恢复事件

连续两个周期无异常触发恢复事件,留空则不发送。

告警通知

告警触发后,事件中心关联事件的“通知”列显示企微图标即表示推送成功。

在企微机器人群收到如下信息。

问题排查

企微未收到告警时,请在“事件中心”查找对应事件:

  • 无事件:检查监控器DQL配置
  • 事件存在但通知列无企微图标:检查通知对象与静默期设置
  • 通知列有企微图标:可能因告警过于频繁触发Webhook限流

无事件排查

打开监控器,复制上方的 DQL。

复制出来的 DQL 如下:

window("L('default')::RE(`.*`):(count(`*`)) { `service` = "mall-admin" AND `status` = "error" } BY `service`, `host`", '5m')

打开「快捷入口」 -「DQL 查询」,粘贴 DQL,去掉外层的 windows 函数,去掉转义,检测区间选择和监控器相同,点击“执行”。如果无数据则不会触发告警。