首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
高可用
订阅
橙子味儿榴莲
更多收藏集
微信扫码分享
微信
新浪微博
QQ
5篇文章 · 0订阅
基于系统稳定性建设,你做了哪些事情?(上)
这是我经常问的一个问题,无论是在面试一些高P的时候,还是在晋升答辩当评委的时候。绝大多数啊的答案是:限流、降级、熔断。但是,成体系性的答案,基本上很少有人说出来。 首先,什么是系统可靠性(Reliab
基于系统稳定性建设,你做了哪些事情?(下)
上期聊完了如何提升系统可靠性,我们继续聊,如何提升系统可用性及稳定性。 2、提升系统可用性,缩短故障时间,快速止损 故障时长 = 发现问题时长 + 定位问题时长 + 解决问题时长 上线规范: 上一章在
百度搜索稳定性问题分析的故事(上)
本文立足于大家所熟悉的百度搜索系统本身,为大家介绍其可用性治理中关于“稳定性问题分析”方面使用的精细技术,以历史为线索,介绍稳定性问题分析过程中的困厄之境、破局之道、创新之法。
线上故障处理手册
通常处理线上问题的三板斧是重启-回滚-扩容,能够快速有效的解决问题,但是根据我多年的线上经验,这三个操作略微有些简单粗暴,解决问题的概率也非常随机,并不总是有效。这边总结下通常我处理应用中遇到的故障的解决方案。 每一层都有可能出现问题,越底层出现问题,影响面越大。所以每一个层次…
如何做好一次故障演练?
伴随着海量请求、节假日峰值流量和与日俱增的系统复杂度一起出现的,很有可能是预料之中以及意料之外的各种故障。在很多情况下,由于事故处理预案的缺失或者预案本身的不可靠,以及开发人员故障处理经验的缺失,造成在各种报警之中自乱了阵脚,从而贻误了最佳战机。特别是一些平时线上没出现过的异常…