混沌工程对业务连续性咨询方法论的启示

225 阅读5分钟

背景

    新冠疫情爆发以来,不同行业不同区域遭受了一定的冲击,而随着互联网技术的发展,数字经济不断深入,各行各业已经进入数字化转型快车道。如何在不确定的经营环境下,全力确保关键业务持续运行,也成为了企业管理者的紧迫任务。对金融机构而言,大部分银行已经开展了业务连续性体系建设工作,但在疫情的冲击下,暴露出了业务连续性建设过程中的一些问题。首先,重监管轻实用,以监管要求作为业务连续性体系建设的底线,体系建设实用性不足;其次,业务连续性中断场景偏重IT因素,非IT因素造成的中断不被重视。最后,过多依赖已有经验,未知场景覆盖不足,导致突发事件应急能力偏弱。结合新冠疫情中商业银行业务连续性建设发现的新问题,同创永益对如何提升业务连续性管理实效进行了一定的探索与创新。

同创的探索与创新

    混沌工程的概念这几年比较火,混沌工程其实是针对分布式复杂环境的应用,它是一门新的技术学科,通过一系列的实验方法,让人们增强在生产中抵御突发事件的能力和信心。它类似于疫苗保护人体的方式,通过主动的故障注入,探测未知的脆弱性。混沌工程的目的是建设韧性架构,包括韧性系统和韧性组织,与业务连续性的目的不谋而合。可以说,混沌工程是为业务连续性而生。

    当前,国有大型银行和全国股份制银行普遍建立了一整套业务连续性应急响应和恢复机制的方法与流程,具体包括业务影响分析与风险评估、业务连续性策略和计划、应急预案、业务连续性资源建设、业务连续性计划演练与持续改进、运营中断事件应急处置等。经过疫情的检验,业务连续性建设的部分环节仍需要完善。同创业务连续性咨询结合混沌工程技术和理念,针对以下几个方面进行探索与创新。

(一)业务影响分析的全面性

    在业务连续性性管理中,业务影响分析的目的之一是识别业务中断影响的范围和程度,那么梳理业务、渠道、系统、资源的强弱依赖关系是业务影响分析的重要基础。在当前传统的业务连续建设工作中,这部分工作一方面来源于客户认知,一方面来源于咨询专家的行业经验。关系梳理的完整性,业务影响分析的全面性,过多的依靠人的能力和经验,具有一定的主观性和局限性。

     通过混沌工程,我们找到科学的方法来识别进行业务影响分析,那就是通过人为设计的故障注入,识别一个系统或渠道故障影响的业务范围,进而准确识别系统或渠道与业务、服务的关系,解决了目前BIA关系识别主观化的问题,同时也可以对目前已有的依赖关系进行准确性验证。这是对传统业务影响方法论的一次创新,通过数字化的方式实现业务影响分析。

image.png

图1 业务影响分析全面性场景设计

(二)中断场景下应急能力的提升

    商业银行在普遍重视预案的制定,通常也会针对预案的完整性和可用性组织业务连续性的演练,但我们发现,当前的演练多为剧本式演练,在复杂多变的外部环境中缺乏适用性。例如,演练的进行,是在一切外部条件具备的情况下,系统正常的情况下进行的,而通常的应急是突发的,外部条件的可用性会受到影响,这就决定了我们的演练的局限性,无法准确验证和提升中断场景下应急能力。

不同于目前通用的演练,混沌工程实验可以更加真实的模拟现实场景;不同于目前的应急管理更加侧重于事后处置,混沌工程通过实战型的演练,在事前对组织的应急能力进行了全方位的检测;混沌工程通过在生产环境的故障注入,对资源的可用性、人员对处理能力、预案的可用性和完整性、应急流程设计的合理性等方面均进行验证。同时对预案中故障场景的覆盖程度也进行了验证。实现了在应急中演练,在演练中应急。真正提高了组织韧性和系统韧性。

image.png 图2 混沌工程对演练的持续改进

展望

 在社会全面数字化转型的趋势下,业务连续性管理的数字化、系统化已成为必然趋势。而目前的传统的业务连续性解决方案急需找到新的突破口,通过混沌工程等新技术的应用,势必突破目前业务连续性管理的局限性,真正实现未雨绸缪。