HDFS 高可用与高扩展性 | 青训营笔记

用户1451705662103

2022-08-09 130 阅读4分钟

这是我参与「第四届青训营」笔记创作活动的的第9天

元数据高可用

服务高可用的需求

高可用：系统在困境（比如硬件故障、软件故障、人为错误）中仍可正常工作
容灾：在相隔较远的异地，建立两套或多套功能相同的系统，互相之间可以进行健康状态监视和功能切换，当一处系统因意外（如火灾、地震等）停止工作时，整个应用系统可以切换到另一处，使得该系统功能可以继续正常工作。

故障度量的指标

MTTR（Mean Time To Repair）：平均修复时间，系统能多快恢复。
MTTF（Mean Time To Failure）：平均失效时间，运行到故障间的时间，一般用于不可修复的系统（制造业）。
MTBF（Mean Time Between Failures）：平均无故障时间，两次故障间的间隔，一般用于可修复的系统（软件）。

HDFS 的高可用架构

Active NameNode：提供服务的 NameNode 主节点，生产 editlog。
Standby NameNode：不提供服务，起备份作用的 NameNode 备节点，消费 editlog
editlog：用户变更操作的记录，具有全局顺序，是 HDFS 的变更日志。
ZooKeeper：开源的分布式协调组件，主要功能有节点注册、主节点选举、元数据存储。
BookKeeper：开源的日志存储组件，存储 editlog
ZKFC：和 ZK、NN 通信，进行 NN 探活和自动主备切换。
HA Client：处理 StandbyException，在主备节点间挑选到提供服务的主节点。

3 自动主备切换

ZooKeeper 是广泛使用的选主组件，它通过 ZAB 协议保证了多个 ZK Server 的状态一致，提供了自身的强一致和高可用。
ZooKeeper 的访问单位是 znode，并且可以确保 znode 创建的原子性和互斥性（CreateIfNotExist）。client 可以创建临时 znode，临时 znode 在 client 心跳过期后自动被删除。
ZK 提供了 Watch 机制，允许多个 client 一起监听一个 znode 的状态变更，并在状态变化时收到一条消息回调（callback）。
基于临时 znode 和 Watch 机制，多个客户端可以完成自动的主选举。
ZKFailoverController：一般和 NN 部署在一起的进程，负责定时查询 NN 存活和状态、进行 ZK 侧主备选举、执行调用 NN 接口执行集群的主备状态切换、执行 fence 等能力。
Hadoop 将集群主备选举的能力和 NN 的服务放在了不同的进程中，而更先进的系统一般会内置在服务进程中。

4 高可用日志系统 BookKeeper 简介

高可靠：数据写入多个存储节点，数据写入就不会丢失。
高可用：日志存储本身是高可用的。因为日志流比文件系统本身的结构更为简单，日志系统高可用的实现也更为简单。
强一致：日志系统是追加写入的形式，Client 和日志系统的元数据可以明确目前已经成功的写入日志的序号（entry-id）。
可扩展：整个集群的读写能力可以随着添加存储节点 Bookie 而扩展。
低延时，持久性

Quorum 协议：多副本一致性读写。基于鸽巢原理，在多个副本间确保高可用、高性能的多副本变更协议。

数据存储高可用

RAID：将多个廉价、不可靠、低性能、容量小的磁盘组装在一起，提供高可靠、高性能、大容量逻辑磁盘服务的一组磁盘列阵方案。

数据中心架构

机架/机柜：将几个服务器统一供电、提供对外网络的固定的物理设备。
TOR top of rack：机架顶部（或底部）的交换机，负责机架内服务器和数据中心的其他服务器的网络通信。
机房和数据中心都是指大量服务器集中放置的场所。

元数据高扩展性

扩展性方案

scale up：通过单机的 CPU、内存、磁盘、网卡能力的提升来提升系统服务能力，受到机器成本和物理定律的限制。
scale out：通过让多台机器组成集群，共同对外提供服务来提升系统服务能力。一般也称为高扩展、水平扩展。

数据存储高拓展性

长尾

二八定律：在任何一组东西中，最重要的只占其中一小部分，约 20%，其余 80% 尽管是多数，却是次要的。
长尾：占绝大多数的，重要性低的东西就被称为长尾。