稳定性治理、线上问题排查

219 阅读5分钟

转自 zhuanlan.zhihu.com/p/636397872

重新认识系统稳定性

SLA

SLA即服务级别协议(Service Level Agreement),是一份服务提供商和客户之间达成的协议,规定了服务提供商必须提供的服务质量、服务水平、服务保证及赔偿方式等方面的内容。

SLA衡量标准通常包括以下几个方面:

  • 可用性:表示系统或服务能够正常运行的时间百分比。通常以年度或月度为单位进行度量。

  • 响应时间:表示系统或服务对请求作出响应的时间。通常分为几个级别,如高级别、中级别和低级别,每个级别对应不同的响应时间标准。

  • 容量:表示系统或服务最大的处理能力。通常以每秒处理请求数量为单位进行度量。

  • 安全性:表示系统或服务提供的安全保障措施。通常包括身份认证、访问控制、数据加密和防火墙等措施。

  • 数据备份和恢复:表示系统或服务备份和恢复数据的能力。通常包括备份频率、数据存储位置、备份恢复时间等指标。

  • 报告:表示系统或服务提供的报告及时性和准确性。通常包括定期报告、实时报告和数据可视化等方式。

其中“可用性”通常被衡量为“几个9”,9越多代表服务全年可用时间越长服务也就越可靠,即停机时间越短。

引发可用率下降的因素:

  • 程序崩溃
  • 应用层或者中间层错误
  • 网络失败或故障
  • 存储介质失败或故障
  • 人为失误或bug
  • 同城或异地容灾
  • 机房宕机与维护

其中人为失误或bug是导致服务不可用最大的元凶,毕竟发布无时无刻不再发生着,有变动就有风险。

  1. 线上问题分析与排查思路
  2. 大厂稳定性设计系统实现案例

稳定性治理

1.系统梳理

image.png

系统分析:核心是输出系统核心功能场景的流程图、时序图、架构图,用例图,领域模型等,需要结合业务来进行梳理

  • 应用依赖:核心是输出 上下游、系统间调用依赖关系

  • 数据库依赖: (强弱依赖、依赖权重) 可能很多简单系统都只有一个数据库,数据库挂了整个系统就挂了,实际上很多重要的复杂系统都会同时具有多个数据源,将核心业务从数据源层面隔离开,哪怕有天数据库挂了,也不是业务全挂。

  • 基础服务、中间件:(缓存、mq、配置中心、消息中心、定时任务)

  • 硬件服务依赖: (存储, 网络、负载均衡,cdn)

  • 部署架构:(同城容灾、异地多活、单元化部署)

  • 访问模式与访问量:(推算与调用量间的关系,为容量分析与规划做准备) 访问模式是指用户访问网站或应用的方式和习惯,例如访问时间、频率、页面浏览深度等。 访问量是指用户访问网站或应用的次数或流量。 核心是根据访问模式和访问量可以推算出未来的访问量,并进行容量分析和规划。例如,如果一个网站平均每天有1万次访问,但在周末有2万次访问,那么在容量规划时需要考虑周末的访问量来确保服务器能够承受高峰期的访问量。

2.稳定性分析

单点,容量和性能,依赖,数据保护,安全,资损,弹性能力,业务连续性,变更控制

3.压测方案

cloud.tencent.com/developer/a…

  • 引流压测
    • 通过缩小在线服务集群数的方式来放大单机处理量。比如一个业务系统的集群有 100 个节点,将其中 90 个节点模拟下线或转发流量到剩余的 10 个节点上实施压测
    • 引流压测的弊端在于,DB 承受压力不变,上下游系统的压力不变。压测结果仅能代表单个应用的性能,但往往无法识别链路和架构级的隐患,而且在引流过程中倘若出现异常或突如其来的业务高峰,很容易造成生产故障
  • 单点压测
  • 全链路压测

线上问题分析与排查思路

zhuanlan.zhihu.com/p/104382085

当遇到线上事故时,应急目标是:快速恢复服务,减少事故造成的损失

事故处理流程

  1. 保留现场:在不影响用户体验前提下,要保留现场和数据;

  2. 恢复系统:在初步分析原因下,如果是自身系统的原因可采用回滚策略快速恢复服务、快速止损,如果是外部系统原因则需要及时沟通,了解故障处理进度;

  3. 分析和复盘,分析事故产生的原因和造成的影响,后续避免方案

问题分类

  • 业务问题(可复现、不可复现)
    • 通过日志定位
  • 性能问题

大厂系统稳定性设计

zhuanlan.zhihu.com/p/613739254

  • 降发生 (风险预防)
    • 开发制度、测试制度、预发和上线流程、线上变更制度
    • 架构优化/解耦, 上下游多层防御
    • 容量压测
    • 监控报警
  • 控影响 (止损第一,核心为主)
    • 应急预案

    • 应急处理流程

ci cd

zhuanlan.zhihu.com/p/90612874