故障处理是每个系统都要面对的现实问题,但随着系统越来越复杂,故障的发现、定位、处理难度也将随之增大。滴滴现在服务近4亿乘客、1700多万司机、覆盖400多个城市,超过10个业务线提供服务,业务的高速增长对稳定性工作来说是个极大的挑战。为了了解滴滴在故障处理以及稳定性建设方面的工作,InfoQ记者采访了滴滴资深运维工程师张云柳。另外,张云柳也将会在9月10日举行的CNUTCon全球运维技术大会上分享相关话题,欢迎关注。
InfoQ:可否整体谈一谈,为了提高故障处理的效率,滴滴出行重点做了哪几块工作?
InfoQ:监控系统发现问题时,你们一般的处理流程是怎么样的?
InfoQ:监控是避免故障的前提,可否谈谈你们监控系统的架构以及技术栈?
InfoQ:从一开始简单的系统监控到现在独立的监控系统,聊聊你们就监控这件事的迭代思路?
InfoQ:从以往滴滴出行的运维经历来看, 故障可以分为哪几类?
InfoQ:在CNUTCon全球运维技术大会上,你会重点为参会者分享哪些技术点?