观测云产品更新 | 故障中心、错误、指标分析、基础设施、场景等

0 阅读5分钟

观测云更新

故障中心

“异常追踪”功能全面升级为“故障中心”

故障中心提供一体化的故障处理支持。当监控器发现异常时,会自动生成故障事件,合并重复告警,并按值班规则通知负责人。若超时未处理,将根据升级策略扩大通知范围。在故障详情页中,可一站式查看关联的监控指标、错误日志、调用链路等信息,支持状态流转与团队协作,所有操作均有完整记录。故障中心这一功能将进一步帮助团队规范故障处理流程,提升响应效率与过程透明度。

在故障中心的计费逻辑中:每命中一次升级策略,在发送通知时记录 100 次任务调用。

  • 创建监控器时,开启「关联故障」,自动生成故障事件

  • 故障事件列表

  • 故障事件详情页

  • 值班规则配置

错误

“错误中心”功能全新上线!可自动汇总 APM、RUM 和日志中的错误,并通过智能聚合将相同问题收敛为统一 Issue 进行跟踪。使用前需配置投递规则以设定监控范围,即可在列表中查看错误概况、处理状态与发生趋势,也可进入详情页分析完整堆栈、关联链路和用户会话。所有错误支持状态流转与团队协作,实现从发现到解决的全流程管理。

同步增加“错误条数”计费,统计每日新增的 Issue 数据条数,包含错误中心产生的 Issue 数据。

  • 错误中心列表,可自定义筛选查看不同来源的错误列表

  • 错误详情页,基于错误来源展示对应的详情页,下图为用户访问监测错误详情页

Open API

1、资源目录:新增支持创建、编辑、删除资源分组信息;

2、支持直接编辑账号状态(值班中、休假中)。

指标分析

1、新增 Top N 序列及最大返回点数选项,可以指定在每个查询中,返回排序后最大或最小的若干条(20/50/100/500)数据序列;

2、新增支持点击图表数据点,下拉选择查看相似趋势指标、下钻分析或其他关联查看。

基础设施

1、主机:

  • 新增支持通过 df_mute 字段进行列表筛选;
  • 对于通过 Open API 或规则创建的主机全局静默,系统将在主机列表新增支持展示“静默”标识。

2、资源目录:新增“服务清单”列表入口。

场景

1、仪表板:新增关联监控器按钮,支持一键查看与该仪表板关联的监控器;

2、图表:为所有图表别名配置新增统一序号标识和悬停联动直观化展示多查询行配置时的对应关系。

APM

Profiling:若 Profile 文件体积超过 20MB,系统暂不支持在线解析,同时新增友好提示,您可使用专业分析工具进行查看。

LLM 监测

LLM 查看器【所有 Trace】列表中,“总 Tokens 数” 调整为统计整条 Trace 消耗的 Tokens 数;总 Tokens 列将同步显示输入、输出 Tokens 数量。

日志

查看器:在显示项选择“重置为默认字段”后,message 字段显示逻辑优化

管理

SSO 管理:优化 SSO 登录流程。用户需先通过邮箱选择身份提供商并完成认证,成功后才能在受保护状态下查看可访问的工作空间,避免权限信息外泄。

部署版

管理后台 > 全局配置:新增平台级系统公告管理配置

集成更新

  • 新增 RedPeaks SAP 集成;
  • 更新 AWS rds mysql 仪表盘;
  • 新增 kingbase 监控器;
  • 更新英文版本dashbord,主要处理中英文转换问题;
  • 更新腾讯 PGSQL 仪表板&监控器;
  • 更新资源目录 icon 以及分类目录。

DataKit 更新

新加功能

  • 新增主机变更检测功能,支持用户、crontab、服务及文件变更监控
  • flameshot 支持持续采集模式,增加默认定时采集和阈值触发持续采集功能
  • 新增 DataKit 自身日志采集配置功能

问题修复

  • 修复 Prometheus export 采集器 tags 优先级错误问题
  • 修复全局 host 标签设置 host=__datakit_ip 时无效的问题
  • 修复 eBPF 采集器导致 istio-init 容器不退出的问题
  • 修复容器日志采集使用默认 stdout 配置时存在无用操作的问题
  • 修复 WAL 锁文件使用 PID 导致退出后无法重用的问题
  • 修复 profile 采集器初始化时机问题,避免磁盘缓存未初始化导致的 panic
  • 修复 Statsd 指标采集,新增 event/service check 采集,这俩类数据目前以日志形式来采集

功能优化

  • 为选举模块增加更多日志和指标,便于检测选举频繁切换和采集器暂停失败问题
  • 更新 DataKit HTTP 客户端指标,增加 URL 路径标签和请求体传输汇总指标
  • SQLServer 采集器新增 sqlserver_host 标签,并将 instance 标签改为 counter_instance
  • bug report 新增 Git 配置文件收集功能
  • Windows 进程采集器新增 status 字段支持
  • DDTrace 采集新增更多 source_type 支持