首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
故障复盘
订阅
用户5685725193641
更多收藏集
微信扫码分享
微信
新浪微博
QQ
15篇文章 · 0订阅
浅谈系统稳定性与高可用保障的几种思路
高并发、高可用、高性能被称为互联网三高架构,这三者都是工程师和架构师在系统架构设计中必须考虑的因素之一。今天我们就来聊一聊三H中的高可用,也是我们常说的系统稳定性。
惨痛的P0级故障复盘
风和日丽的周五,一切都是那么美好。可天有不测风云~~~ 一开始只有少许服务响应较慢,其他服务正常。 这时候运营钉钉群提示接口响应较慢,怀疑是慢SQL,登录阿里云后确实存在这样的情况。总体不影响线上主要业务。 中午12.00左右, 部分服务抛出异常,Tried one times…
谈谈高可用系统的运维设施建设
最近和一些朋友做了一些线下的沟通,大家都是互联网技术同行, 自然会谈一下各自工作中遇到的一些问题。聊完后我有一个感受,就是大家在各自业务中实施高可用过程中,踩了一些坑,然后再反过来不断优化自己的系统,但是实际上如果我们一开始就能在运维端打下基础,就可以避免里面的很多问题。所以今…
基于系统稳定性建设,你做了哪些事情?(上)
这是我经常问的一个问题,无论是在面试一些高P的时候,还是在晋升答辩当评委的时候。绝大多数啊的答案是:限流、降级、熔断。但是,成体系性的答案,基本上很少有人说出来。 首先,什么是系统可靠性(Reliab
聊一聊SRE
新开设了专栏《运维体系》,将分享我在DevOps,SRE,AIOps,容器化,云原生等领域的学习和实践心得。这一次先来聊一聊SRE。
线上故障如何排查
说起线上故障,程序员应该都经历过,从故障处理恢复过程中我们能快速提高。踩坑多了,慢慢也就成了大牛。这道题也是大厂的面试官们特别喜欢问的问题之一,从候选人对这道题的回答过程中,面试官至少能获取到两个方面的反馈。第一是你平时负责的项目是不是核心项目,如果你说你负责的是后管系统,出了…
五年磨一剑:滴滴顺风车服务端之稳定性规范
服务端作为顺风车技术部内最大的工程团队,随着人员的扩张和迭代,流程规范在其中扮演着原来越重要的角色。一方面规范化可以提高我们的交付质量、交付效率,另一方面,我们也希望在一次次的实战中不断的总结,探索出
那些年我在大厂学到的工程思维(二):复盘思维
本文介绍了“三省吾身”的复盘思维,解释了为何要复盘、如何复盘以及复盘的关键点。如果你能够在某个领域里践行复盘思维,相信过不了多久,你就会成为这个领域中屈指可数的专家。
生产bug记录和思考
复盘最近碰到的bug,记录下日常处理异常的方法。定位异常手段有1.看日志;2.看接口;3.看数据;对常见的bug做了分类,给出处理的方案。
那些年我在大厂学到的工程思维(一):灰度思维
从一次生产环境的数据库切换导致的故障说起,聊一聊工程思维中“灰度思维”的原理以及在工程和生活中的应用。