DDIA 读书笔记【数据分区一】这是我参与2022首次更文挑战的第24天，活动详情查看：2022首次更文挑战数据分区（

这是我参与2022首次更文挑战的第24天，活动详情查看：2022首次更文挑战

数据分区（分片）

定义：每一条数据仅属于某一个特定的分区

每一个分区都可以看作是一个小型数据库

两者可以一起使用，复制可以通过冗余的方式增加系统的可用性，让不同的复制分布于不同的节点上

通过关键字的方式进行数据的访问

海量数据如何进行合理的分区？

分区的目的：

当分区不均匀的时候（数据倾斜），会导致系统的承载能力没有发挥达到最大

如何进行分区：

可以起到类似随机分布的作用，如果哈希函数足够随机均匀，可以尽量保证热点的均匀分布

不能够完全保证热点分布均匀

目前没有完全能够解决负载倾斜问题的方法

可以通过哈希的方式减轻热点的问题\
- 极端情况可以通过应用层进行监控的方式，进行热点的检测，如果发现是热点那么可以在关键字后面加上随机数的形式防止哈希到同一个分区上
- 后续的读取会变得很麻烦，需要将这些带有关键字的数据都读取出来进行合并，同时还需要记录采用了这种方式的关键字

二级索引，不是作为数据库的主索引存在，不能保证可以查找到精确的数据，只是用于加速查找过程，可以解释成副缩影

分区并不是由二级索引所决定的，没有办法直接通过二级索引得到数据的分区位置

会有写放大\
- 单个文档的更新可能会涉及多个二级索引的更新
- 多个二级索引的更新意味着对多个节点的写入操作
- 同步写入的话，同样会有阻塞问题
- 在实际实现中往往是采用异步的方式进行二级索引的更新，这意味着写入并不能够实时的进行查找到

写和读是一对孪生兄弟，对一者有利的时候，可能会对另一者不利