首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
告警
订阅
郭小郭
更多收藏集
微信扫码分享
微信
新浪微博
QQ
8篇文章 · 0订阅
故障发现、定位提效超70%,去哪儿可观测体系做了哪些优化?
去哪儿网从优化故障指标出发,对故障发现、故障根因定位、故障修复等各个环节展开全面优化。本文将深入探讨这一系列优化改革的详细过程,剖析各个阶段所采用的监控方法和工具,以及在实践过程中遇到的关键问题。
聊一聊故障管理平台的建设
重试依然失败怎么办?这个问题曾经一直困扰我。因为每次处理这种问题时往往很棘手,需要在线上手动执行一些命令,是比较危险的人肉运维工作。
货拉拉故障演练体系的构建与实践
通过构建一个故障演练体系,来提升系统架构的容错能力和韧性,也可以站在位置故障视角来验证系统稳定性,验证整个故障定位能力和恢复体系。同时可以以战养兵,提升故障应急效率。
【线上故障复盘】RPC 线程池被打满,1024个线程居然不够用?
昨天晚上,我刚到家里打开公司群,就看见群里有人讨论:线上环境出现大量RPC请求报错,异常原因:被线程池拒绝……
🌐 线上故障分析 【下篇】 redis锁处理幂等性失效
4 案例解析 4.1 热身-事故1:redis锁处理幂等性失效 以上代码问题: 1:对事物的理解使用有问题,幂等设计bug 2:redis锁使用有问题 扩展: 事务在生产实践中经常犯的错误: 事务范围
🌐 线上故障分析 【上篇】
1 生产故障分级规范概要 1.1 开篇 计算机是当今世界的命脉,你能看到的任何地方,计算机都在改变着世界,不论是传统的制造生产,医疗通讯。还是新兴的虚拟现实,无人驾驶汽车 等领域。过去的几十年,计算机
关于后台稳定性建设的系统性思考
全文约 15000 字,阅读需要 30 分钟。是关于后台稳定性建设的系统性思考,从运维、高可用架构、容量治理、变更管理、风险治理、故障管理、混沌工程等 7 个方面做了详细的表述。
告警聚合降噪、升级、认领、排班、协同,一网打尽
我们观察到,绝大部分公司都不止一套监控系统,比如同时使用了 Cacti、Zabbix、Prometheus、Open-Falcon、Nightingale、ElastAlert