分布式基础——分区本章主要介绍了「垂直分区」和「水平分区」的适用场景及优缺点，并重点阐述了「水平分区」的三种分区算法：「

本章主要介绍了「垂直分区」和「水平分区」的适用场景及优缺点，并重点阐述了「水平分区」的三种分区算法：「范围分区」、「哈希分区」和「一致性哈希分区」。注：本文偏向于总结，适用于有一定基础的读者。

定义

分区是指将一个数据集拆分成较小的数据集，同时将存储和处理这些较小数据集的责任分配给分布式系统中的不同节点。

对表的列进行拆分，将某些列的整列数据拆分到不同的分区中。

适用场景：

优点：

减少扫描的列，降低IO和内存的开销。
不同的分区可以使用不同的存储引擎，更加灵活。（「myisam」可以创建只读的压缩表，减少磁盘占用；因为不支持事务，在查询时不会有复杂的检查，并且没有聚簇索引，没有回表的开销，所以查询效率更高；）
不同的分区可以使用不同的安全策略，提高数据安全性。

缺点：

对表的行进行拆分，将不同的行放入不同的分区中。

适用场景：

优点：

缺点：

根据指定的关键字，将数据集拆分成若干连续的范围，每个范围存储到一个单独的节点上。（例如以年份为「分区键」对数据进行分区。）

优点：

缺点：

将制定的关键字经过一个哈希函数计算后，根据得到的值来决定数据集的分区。

优点：

缺点：

一致性哈希是一种特殊的哈希算法，用来缓解普通「哈希分区」中的增删节点时引起的大规模数据迁移的问题。一致性哈希将所有的hash值组成一个抽象的圆环，然后将所有的节点映射到圆环上，那么每个节点负责的「hash片」就是逆时针方向上和相邻节点之间的所有「hash值」。

优点：

缺点：

在不额外存储数据的情况下，无法进行范围查询。
当一个节点发生下线时，该节点的数据将会转移到相邻的节点上，进而导致数据分布不均。（解决方案：引入「虚拟节点」，例如物理节点A，有虚拟节点A1，那么A1就可以负责一部分分片，但实际的数据处理还是由物理节点负责。）