01|重磅更新!网络设备监控上线,全面掌握网络基础设施运行状态
需求背景
某银行客户反馈,他们部署了大量路由器、交换机等网络设备,设备品牌多、型号杂、分布广,缺乏统一监控入口。运维人员无法实时查看设备在线状态、接口通断、流量负载等关键指标,出现网络抖动、端口宕机时只能逐台登录排查,耗时久、定位慢,严重影响核心业务稳定性,亟需一套标准化、自动化的网络设备监控模块实现集中可视。
更新说明
针对客户多品牌、多类型网络设备集中监控的需求,基础设施模块新增网络设备监控能力:
- 支持通过 SNMP 协议自动发现网络设备,统一展示设备状态、IP、类型、接口数量等关键信息,实现设备集中纳管
- 设备详情页提供设备信息、接口详情、性能指标三大视图,一站式查看全量运行数据
- 支持接口状态筛选与灵活的监控器配置,实现重点链路与端口精准监控
- 提供性能指标趋势仪表板,直观展现 CPU、内存、流量、接口状态等变化,便于提前发现性能隐患
如何体验?
进入「基础设施」-「网络」-「设备」,通过 SNMP 协议自动采集设备指标,在统一的设备列表中查看所有网络设备的健康状态,快速定位网络故障。
- 设备列表
- 设备详情页
02|重磅更新!数据库详情页全新升级,支持多维度性能深度分析
需求背景
有客户反馈,现有数据库可观测仅支持基础信息展示,缺少深度性能分析能力。当业务出现数据库响应慢、SQL 耗时突增、会话阻塞死锁等问题时,运维人员需要在多个页面跳转查询,慢 SQL 无法下钻、阻塞链无法自动识别、负载趋势不直观,问题定位效率低,极易错过最佳处理窗口期。
更新说明
为解决数据库深度排障难、分析维度不足的问题,基础设施数据库全新升级详情页:
- 优化概览视图,新增负载趋势图与高频查询 Top5,快速把握数据库运行态势
- 新增查询分析能力,支持 SQL 性能剖析,可快速定位慢查询并对执行采样进行下钻分析
- 新增会话阻塞分析,自动识别阻塞链,清晰展示 Root Blocker 与 Waiter 依赖关系
如何体验?
进入「基础设施」-「数据库」,点击任意数据库实例进入详情页,一站式查看概览、查询、会话、指标、日志、自定义关联等多维度数据,无需多页面跳转查询。
- 概览视图
- 查询分析
- 会话分析
03|故障中心新增分析看板,故障全生命周期可视化统计
需求背景
有客户反馈,在日常运维中,故障数量多、处理流程长,当前故障中心缺少全局统计视图。管理员无法快速掌握一段时间内故障总量、待分配积压、处理中进度及已闭环情况,难以评估团队处理效能与 SLA 达成情况,故障复盘与资源调配缺乏数据支撑。
更新说明
为满足故障全局可视、效能可量化的需求,故障中心新增 “分析看板” 页面,实现全生命周期统计分析:
- 支持统计指定时间范围内故障总数,直观呈现整体故障规模与波动
- 统计待分配故障数量,帮助管理者及时发现积压与分配滞后问题
- 展示处理中故障数量,跟踪故障处置进度
- 展现已解决故障数量,用于复盘效能与问题闭环情况
如何体验?
进入「故障中心」-「分析看板」,查看故障统计分析视图,实时掌握故障整体态势、处理进度与团队效能。
04|场景仪表板体验优化,批量管理与分享更高效
需求背景
有客户反馈,他们有大量按项目、团队、环境划分的仪表板,在管理时需要为多个仪表板设置相同标签进行权限分组,现有操作只能逐个添加,效率低。同时,带视图变量的仪表板在分享时 URL 过长,传递不便,影响协作效率与使用体验。
更新说明
围绕批量管理与便捷分享的需求,对场景仪表板进行体验优化:
- 支持批量为多个仪表板添加标签,实现按项目、团队、环境统一授权与管理
- 优化分享链接长度,对已隐藏的视图变量,自动不在 URL 中展示,大幅缩短链接
如何体验?
进入「场景」-「仪表板」,选定多个仪表板后,进行批量删除、导出、修改可见范围、添加标签的操作。
05|APM 资源调用与服务拓扑能力升级,调用链路更清晰
需求背景
有客户反馈,在排查微服务调用异常时,APM 链路仅展示部分依赖资源,无法看到从入口到全链路下游的完整调用关系,容易遗漏关键瓶颈节点。同时,查看服务调用关系时,无法一键跳转到拓扑图直观梳理上下游依赖,根因定位效率低。
更新说明
为实现全链路完整可视与快速拓扑溯源,对 APM 资源调用与服务关系能力升级:
- 在链路详情、服务调用关系卡片中新增关联资源拓扑入口,点击可一键跳转至拓扑页
- 服务详情的资源调用新增「全部资源」选项,可自由切换查看入口资源与全量依赖资源
如何体验?
在「APM」-「服务」-「资源调用」,可按环境、版本、K8s 集群过滤,查看服务关联资源调用分析;
在「APM」-「链路」-「服务调用关系」,查看不同服务间的调用关系及调用次数以及单个服务的执行时间、平均耗时和调用数,通过跳转按钮查看上下游拓扑关系。
06|工单管理全面增强,功能更完善,信息安全更可控
需求背景
有客户反馈,他们内部习惯使用工单反馈问题,但现有工单系统功能简单:缺少分类、不支持关键字搜索、不支持工单升级、消息提交后不可撤回。尤其在安全合规要求严格的场景下,员工若不慎发送未脱敏的日志、截图等敏感信息,无法删除,存在数据泄露与合规风险。
更新说明
针对工单易用性与信息安全需求,对工单管理能力全面增强:
- 优化工单类型并增加类型描述,让问题归类更清晰
- 升级搜索能力,支持通过用户邮箱、提交人快速定位工单
- 新增工单优先级选择,便于重要问题优先处理
- 支持删除工单及工单内评论,避免敏感信息泄露,满足安全合规要求
如何体验?
点击右上角「问号」-「工单管理」,即可提交工单,包括在使用过程中难以解决的问题、产品购买及费用相关疑问、以及对产品的功能需求或改进建议。
工单提交以后,在工单详情页即可撤销工单和删除评论。
07|更多体验优化与问题修复
时间控件优化
新增 “最近使用的时间范围” 记录:本地保存最近 5 组时间查询条件,减少重复选择。
API Keys 管理优化
支持编辑 API Key 名称与角色;Open API 地址根据工作空间站点自动展示对应 Endpoint。
DataKit 安装配置新增 Log 日志模块
支持配置日志文件采集路径,同步提供自动多行模式、原生直写索引等选项。
仪表板 / 监控器重名治理
历史重名资源按创建时间自动标注(1)(2)序号;新建时重名将被拒绝创建并返回错误;导入 / 迁移可选择跳过或覆盖。
指标管理优化
指标导出 CSV 时支持同步导出关联标签,以 JSON 格式展示维度信息;指标详情新增原始指标字段 origin_field。
DQL 查询能力增强
Resource 预聚合数据新增 ddsketch 分位数,支持 Resource 级别分位数统计,监控器可基于分位数配置告警;支持使用 percentile_from_ddsketch_payload 函数查询 duration_quantile 字段。
示例:
TRM::re('.*'):(percentile_from_ddsketch_payload(duration_quantile, 90)) {source_resource="GET /test/*anypath"} limit 1
更多更新详见观测云三月更新日志:docs.guance.com/release-not…
每一次更新,都为了让观测更简单、更强大。每一项看似微小的体验改进,都源于我们对真实用户使用场景的深刻洞察。观测云以极微之行致广大之境 ,致力于让可观测性不仅是技术能力的堆砌,更是如丝般顺滑的操作体验。
如果您有任何功能建议或使用反馈,欢迎立即联系我们小助手/访问官网联系我们 — 您提需求,我们改产品,让观测云成为最懂你的可观测平台。
下月见,愿你的系统稳如磐石,查询疾如闪电!