腾讯云故障,该如何规避?

55 阅读2分钟

2024年04月08日腾讯云故障上了热搜,该故障从15:31分开始,影响1个多小时,涉及全球多个区域多款服务。

图片

之前阿里云也出现过类似问题,API和控制台访问不了的情况,历史总是如此的相似,接下来跟大家一起探讨在数据库层面我们该如何规避!

数据库如果出现这种故障该怎么办?

数据库层面出现这种小时级别故障时,仅仅应急救火对业务的损失太大,我们要做的是避免故障,提前将问题识别出来并解决。下面给大家介绍下DBdoctor如何提前发现以及全过程SQL审核规避问题,并及时给出优化建议。

1)上线前识别SQL性能问题,提前规避故障

研发工程师在开发阶段引入的新的SQL语句,在发布上线前很难进行性能评估,发布后容易对线上业务产生影响。业界传统SQL审核工具或产品多基于静态规则,没有考虑到最关键的性能因素,因此上线前的性能评估亟待解决。

DBdoctor通过自研外置Cost优化器,创新性实现了覆盖性能诊断的SQL审核,能够基于线上数据模型,在发布上线前快速、精准评估SQL性能问题,并给出优化建议,提前规避线上故障的发生。

图片

2)线上实时分析,监控SQL是否存在潜在性能问题并给出优化建议

针对线上正在运行的业务SQL,由于表数据量的持续增加,也存在性能隐患,一旦出现将对业务有损,需要提前将带病工作的SQL识别出来,防止出现性能问题导致故障。

DBdoctor具有主动诊断功能,基于异常趋势特征检测和相关性等算法实时主动侦测,识别存在性能问题的SQL并给出优化建议。

图片

3)变更优化后效果检验

优化建议变更后是否能给SQL带来性能提升需要有一个准确的评估工具,仅通过分析几条样本SQL的快慢是不能准确评估性能问题是否全部解决,一旦表发生数据倾斜了,还是会带来性能隐患。

DBdoctor基于审计日志进行同类SQL(指纹SQL)实时聚合分析,统计请求次数、执行耗时分布、平均执行时间、最大耗时、IP来源分布等信息,用户可以全方位看到该类SQL优化后的效果。图片

免费下载/在线试用

dbdoctor.hisensecloud.com/col.jsp?id=…

公众号:DBdoctor

如果您是开发或DBA欢迎关注公众号,关注公众号回复:“进群”,可拉您进入技术交流群