这是我参与「第五届青训营」笔记创作活动的第十六天

一、HBase介绍

HBase是一个分布式的、面向列的非关系型数据库系统，它是基于Hadoop分布式文件系统（HDFS）之上的一种NoSQL数据库。HBase设计用于处理大规模的非结构化和半结构化数据，它提供了高可用性、高扩展性和高性能的特性。
HBase的数据存储方式类似于Google的Bigtable，采用了列族的概念，数据按照列族进行存储和访问。HBase支持ACID事务、表的自动分区、数据版本控制等功能，同时也提供了MapReduce集成接口，使得用户可以通过Hadoop生态系统来进行数据处理和分析。HBase还具备数据均衡和数据自动恢复的能力，当某个节点失效时，数据会自动重建在其他可用的节点上。
HBase适合处理需要快速读写、高可用性和强一致性的海量数据，它被广泛应用于Web应用程序、日志处理、数据挖掘、在线交易处理等场景。

二、整体架构设计

1.RegionServer：RegionServer是HBase的核心组件，每个RegionServer会负责管理多个HBase表的Region，每个Region负责管理表的一部分数据。RegionServer实现了读写数据的接口，同时也负责处理数据的压缩、编码和解码，以及缓存数据的操作。
2.HMaster：HMaster是HBase的管理节点，它负责Region的负载均衡、Region的分配、Region的迁移、数据的恢复、元数据的管理等工作。HMaster会定期从ZooKeeper获取元数据信息，并将元数据信息发送给RegionServer。
3.ZooKeeper：ZooKeeper是HBase的协调服务，它负责存储和管理HBase集群的元数据信息，包括RegionServer的状态信息、表的元数据信息、HMaster的状态信息等。ZooKeeper还提供了分布式锁和协调机制，用于协调HBase集群中不同节点之间的数据同步和状态同步。
4.HDFS：HDFS是HBase的底层存储，它负责存储HBase表的数据和元数据。HDFS采用分布式存储的方式，将数据分散存储在多个节点上，从而保证数据的可靠性和容错性。
5.客户端：客户端是HBase与用户交互的接口，用户通过客户端访问HBase集群，进行数据的读写操作。客户端提供了Java API、REST API、Thrift API等多种接口，使得用户可以方便地与HBase进行交互。

HBase | 青训营笔记

一、HBase介绍

二、整体架构设计