观测云3月产品升级报告 | 网络设备自动发现、数据库深度分析上线,故障中心、仪表板、APM及管理能力等持续优化

0 阅读8分钟

01|重磅更新!网络设备监控上线,全面掌握网络基础设施运行状态

需求背景

某银行客户反馈,他们部署了大量路由器、交换机等网络设备,设备品牌多、型号杂、分布广,缺乏统一监控入口。运维人员无法实时查看设备在线状态、接口通断、流量负载等关键指标,出现网络抖动、端口宕机时只能逐台登录排查,耗时久、定位慢,严重影响核心业务稳定性,亟需一套标准化、自动化的网络设备监控模块实现集中可视。

更新说明

针对客户多品牌、多类型网络设备集中监控的需求,基础设施模块新增网络设备监控能力:

  • 支持通过 SNMP 协议自动发现网络设备,统一展示设备状态、IP、类型、接口数量等关键信息,实现设备集中纳管
  • 设备详情页提供设备信息、接口详情、性能指标三大视图,一站式查看全量运行数据
  • 支持接口状态筛选与灵活的监控器配置,实现重点链路与端口精准监控
  • 提供性能指标趋势仪表板,直观展现 CPU、内存、流量、接口状态等变化,便于提前发现性能隐患

如何体验?

进入「基础设施」-「网络」-「设备」,通过 SNMP 协议自动采集设备指标,在统一的设备列表中查看所有网络设备的健康状态,快速定位网络故障。

  • 设备列表

  • 设备详情页

02|重磅更新!数据库详情页全新升级,支持多维度性能深度分析

需求背景

有客户反馈,现有数据库可观测仅支持基础信息展示,缺少深度性能分析能力。当业务出现数据库响应慢、SQL 耗时突增、会话阻塞死锁等问题时,运维人员需要在多个页面跳转查询,慢 SQL 无法下钻、阻塞链无法自动识别、负载趋势不直观,问题定位效率低,极易错过最佳处理窗口期。

更新说明

为解决数据库深度排障难、分析维度不足的问题,基础设施数据库全新升级详情页:

  • 优化概览视图,新增负载趋势图与高频查询 Top5,快速把握数据库运行态势
  • 新增查询分析能力,支持 SQL 性能剖析,可快速定位慢查询并对执行采样进行下钻分析
  • 新增会话阻塞分析,自动识别阻塞链,清晰展示 Root Blocker 与 Waiter 依赖关系

如何体验?

进入「基础设施」-「数据库」,点击任意数据库实例进入详情页,一站式查看概览、查询、会话、指标、日志、自定义关联等多维度数据,无需多页面跳转查询。

  • 概览视图

  • 查询分析

  • 会话分析

03|故障中心新增分析看板,故障全生命周期可视化统计

需求背景

有客户反馈,在日常运维中,故障数量多、处理流程长,当前故障中心缺少全局统计视图。管理员无法快速掌握一段时间内故障总量、待分配积压、处理中进度及已闭环情况,难以评估团队处理效能与 SLA 达成情况,故障复盘与资源调配缺乏数据支撑。

更新说明

为满足故障全局可视、效能可量化的需求,故障中心新增 “分析看板” 页面,实现全生命周期统计分析:

  • 支持统计指定时间范围内故障总数,直观呈现整体故障规模与波动
  • 统计待分配故障数量,帮助管理者及时发现积压与分配滞后问题
  • 展示处理中故障数量,跟踪故障处置进度
  • 展现已解决故障数量,用于复盘效能与问题闭环情况

如何体验?

进入「故障中心」-「分析看板」,查看故障统计分析视图,实时掌握故障整体态势、处理进度与团队效能。

04|场景仪表板体验优化,批量管理与分享更高效

需求背景

有客户反馈,他们有大量按项目、团队、环境划分的仪表板,在管理时需要为多个仪表板设置相同标签进行权限分组,现有操作只能逐个添加,效率低。同时,带视图变量的仪表板在分享时 URL 过长,传递不便,影响协作效率与使用体验。

更新说明

围绕批量管理与便捷分享的需求,对场景仪表板进行体验优化:

  • 支持批量为多个仪表板添加标签,实现按项目、团队、环境统一授权与管理
  • 优化分享链接长度,对已隐藏的视图变量,自动不在 URL 中展示,大幅缩短链接

如何体验?

进入「场景」-「仪表板」,选定多个仪表板后,进行批量删除、导出、修改可见范围、添加标签的操作。

05|APM 资源调用与服务拓扑能力升级,调用链路更清晰

需求背景

有客户反馈,在排查微服务调用异常时,APM 链路仅展示部分依赖资源,无法看到从入口到全链路下游的完整调用关系,容易遗漏关键瓶颈节点。同时,查看服务调用关系时,无法一键跳转到拓扑图直观梳理上下游依赖,根因定位效率低。

更新说明

为实现全链路完整可视与快速拓扑溯源,对 APM 资源调用与服务关系能力升级:

  • 在链路详情、服务调用关系卡片中新增关联资源拓扑入口,点击可一键跳转至拓扑页
  • 服务详情的资源调用新增「全部资源」选项,可自由切换查看入口资源与全量依赖资源

如何体验?

在「APM」-「服务」-「资源调用」,可按环境、版本、K8s 集群过滤,查看服务关联资源调用分析;

在「APM」-「链路」-「服务调用关系」,查看不同服务间的调用关系及调用次数以及单个服务的执行时间、平均耗时和调用数,通过跳转按钮查看上下游拓扑关系。

06|工单管理全面增强,功能更完善,信息安全更可控

需求背景

有客户反馈,他们内部习惯使用工单反馈问题,但现有工单系统功能简单:缺少分类、不支持关键字搜索、不支持工单升级、消息提交后不可撤回。尤其在安全合规要求严格的场景下,员工若不慎发送未脱敏的日志、截图等敏感信息,无法删除,存在数据泄露与合规风险。

更新说明

针对工单易用性与信息安全需求,对工单管理能力全面增强:

  • 优化工单类型并增加类型描述,让问题归类更清晰
  • 升级搜索能力,支持通过用户邮箱、提交人快速定位工单
  • 新增工单优先级选择,便于重要问题优先处理
  • 支持删除工单及工单内评论,避免敏感信息泄露,满足安全合规要求

如何体验?

点击右上角「问号」-「工单管理」,即可提交工单,包括在使用过程中难以解决的问题、产品购买及费用相关疑问、以及对产品的功能需求或改进建议。

工单提交以后,在工单详情页即可撤销工单和删除评论。

07|更多体验优化与问题修复

时间控件优化

新增 “最近使用的时间范围” 记录:本地保存最近 5 组时间查询条件,减少重复选择。

API Keys 管理优化

支持编辑 API Key 名称与角色;Open API 地址根据工作空间站点自动展示对应 Endpoint。

DataKit 安装配置新增 Log 日志模块

支持配置日志文件采集路径,同步提供自动多行模式、原生直写索引等选项。

仪表板 / 监控器重名治理

历史重名资源按创建时间自动标注(1)(2)序号;新建时重名将被拒绝创建并返回错误;导入 / 迁移可选择跳过或覆盖。

指标管理优化

指标导出 CSV 时支持同步导出关联标签,以 JSON 格式展示维度信息;指标详情新增原始指标字段 origin_field。

DQL 查询能力增强

Resource 预聚合数据新增 ddsketch 分位数,支持 Resource 级别分位数统计,监控器可基于分位数配置告警;支持使用 percentile_from_ddsketch_payload 函数查询 duration_quantile 字段。

示例:

TRM::re('.*'):(percentile_from_ddsketch_payload(duration_quantile, 90)) {source_resource="GET /test/*anypath"} limit 1

更多更新详见观测云三月更新日志:docs.guance.com/release-not…

每一次更新,都为了让观测更简单、更强大。每一项看似微小的体验改进,都源于我们对真实用户使用场景的深刻洞察。观测云以极微之行致广大之境 ,致力于让可观测性不仅是技术能力的堆砌,更是如丝般顺滑的操作体验。

如果您有任何功能建议或使用反馈,欢迎立即联系我们小助手/访问官网联系我们 — 您提需求,我们改产品,让观测云成为最懂你的可观测平台。

下月见,愿你的系统稳如磐石,查询疾如闪电!