首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
故障调查
酷家乐监控与SRE技术团队
创建于2023-12-07
订阅专栏
分享监控系统相关组件线上问题的排查经验😄😄😄
等 1 人订阅
共2篇文章
创建于2023-12-07
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
【故障调查】一个查询导致ClickHouse集群崩溃?
背景 ClickHouse 在我们监控系统中发挥着举足轻重的作用,目前不仅承担着日志的写入,调用链、指标以及前端监控都有广泛的使用。 下面是一个异常查询导致的集群无响应的排查案例。 问题表象 从酷家乐
【故障调查】一个Thanos按天聚合查询偏移8小时的Bug
指标系统在监控领域是最核心的系统之一,这次我们遇到查询时间粒度为天的数据时,存在8h偏移。本篇文章详细记录整个排查过程。