滴滴是如何高效率处理线上故障的?

1,112 阅读1分钟
原文链接: www.infoq.com

故障处理是每个系统都要面对的现实问题,但随着系统越来越复杂,故障的发现、定位、处理难度也将随之增大。滴滴现在服务近4亿乘客、1700多万司机、覆盖400多个城市,超过10个业务线提供服务,业务的高速增长对稳定性工作来说是个极大的挑战。为了了解滴滴在故障处理以及稳定性建设方面的工作,InfoQ记者采访了滴滴资深运维工程师张云柳。另外,张云柳也将会在9月10日举行的CNUTCon全球运维技术大会上分享相关话题,欢迎关注。

InfoQ:可否整体谈一谈,为了提高故障处理的效率,滴滴出行重点做了哪几块工作?

InfoQ:监控系统发现问题时,你们一般的处理流程是怎么样的?

InfoQ:监控是避免故障的前提,可否谈谈你们监控系统的架构以及技术栈?

InfoQ:从一开始简单的系统监控到现在独立的监控系统,聊聊你们就监控这件事的迭代思路?

InfoQ:从以往滴滴出行的运维经历来看, 故障可以分为哪几类?

InfoQ:在CNUTCon全球运维技术大会上,你会重点为参会者分享哪些技术点?