架构设计可靠性优化
- 应用架构优化 :针对各业务模块或子系统性能及扩展性问题,提供动静分离、流量分发、隔离解耦、限流、降级等场景应用架构优化方案。例如,将静态资源与动态资源分离,通过 CDN 加速静态资源的访问,减轻服务器负担;采用负载均衡技术分发流量,提高应用的可用性和性能。
- 数据优化 :结合业务访问量及数据流向,针对业务特性提供缓存及数据库优化等场景方案来优化数据。如使用 Redis 等缓存技术,将热点数据缓存到内存中,提高数据读取速度;对数据库进行读写分离、分库分表等操作,优化数据库性能。
- 高可用部署优化 :解决云资源单点、数据无备份等问题,以最优的业务资源开销协助客户进行高可用部署改造来优化高可用部署架构。例如,采用多台服务器组成集群,实现应用的高可用部署;使用分布式存储系统,确保数据的冗余备份。
应急演练能力优化
- 演练规划 :收到客户切换演练需求后,由政务云 SRE 用云优化能力中心制定总体规划,组建应急演练团队,华为侧一线客户经理及运维工程师协同政务云 SRE 团队成员组成应急演练团队负责与客户沟通和方案讨论。
- 演练准备 :遵循混沌工程实验原理,并融合华为云内部 SRE 团队 “朱日和” 突击演练实践,聚焦多领域模拟真实环境,提供丰富的演练场景,以及关键场景应急预案。
网络层面优化
- 网络资源设计 :网络采用扁平化二层架构,分为核心层和接入层,提高性能,减少时延;网络大二层部署,保证虚拟机在资源池内部的热迁移能力;核心交换机旁挂负载均衡器,提供负载均衡增值服务;防火墙支持虚拟防火墙能力,实现业务系统之间的安全隔离。
- 跨节点网络优化 :通过部署 GSLB 设备实现资源访问在两个政务云节点之间的调度。负载均衡设备能够对用户的访问进行智能分析决策,返回给用户一个最佳的服务地址,同时对访问应用集群的流量进行合理调度,如果集群中某一节点不可用,则将该节点移出集群,把访问流量分配到其他可以正常工作的节点。根据业务访问模型的不同,政务云提供高可靠的网络互联,通过 VxLAN 技术实现双数据中心大二层互通,形成跨节点的双活网络,允许应用集群、虚拟机跨节点部署、迁移,并且进行访问路径的优化,使客户端就近访问业务所在的政务云节点。
计算资源层面优化
采用标准化的 X86 物理服务器,构建计算资源池。采用 OpenStack 开放架构,支持 Xen、KVM 等主流虚拟化平台。X86 服务器根据业务系统对资源的不同需求,配置不同的产品型号及物理配置,划分高性能计算区、通用性能计算区,分别作为虚拟化资源和物理机资源。
存储资源层面优化
- 多样化存储部署 :满足不同业务系统的需求,降低存储的投资成本。对于数据库、VM 文件系统采用 FC SAN 进行承载;对于非结构化数据、虚拟化镜像等数据存储,建议采用分布式文件系统存储承戴,保障存储性能和扩容能力。
- 存储高可用技术 :使用分布式存储系统,如 Ceph 等,实现数据的多副本冗余备份,确保数据的安全性和高可用性;定期对存储设备进行巡检和维护,及时发现和处理存储故障。
业务云化与应用层面优化
- 业务云化设计 :根据各政府部门业务对云资源的不同需求,以及业务云化的难度,分批逐步的将现网业务系统迁移至云服务商政务云,实现更多政务业务的云化。
- 应用集群与虚拟机迁移技术 :在应用层面,采用应用集群和虚拟机迁移等技术,提供用户跨节点的高可用和应用访问调度能力,通过数据 RAC 等技术部署或集群方式实现两个数据中心间的数据库实时同步和双活。配合监听及应用程序故障转移技术,数据库集群在服务器或单个节点出现故障时,能够使客户端在新的连接中继续工作,防止业务中断。
安全与运维层面保障
- 安全体系建设 :构建一体化安全防护能力,围绕平台安全、租户安全、合规安全等方面构建层次化的安全能力体系。例如,采用防火墙、入侵检测系统、加密技术等,保障数据的保密性、完整性和可用性。
- 确定性运维 :采用确定性运维体系,通过设计和落地高可用架构的产品来提升云平台的可靠性、可恢复性以及缩小故障影响范围,并采用动态清零的风控方法阻断风险。利用智能运维平台,实现智能告警、智能故障定界、自动恢复等功能,提高运维效率和质量。