红黑树 B树

279 阅读8分钟

红黑树

概述

红黑树是树的数据结构中最为重要的一种,Java的容器TreeSet、TreeMap均使用红黑树实现。JDK1.8中hashMap中也加入了红黑树。每个节点都带有颜色属性,颜色为红色或黑色。除了二叉查找树一般要求以外,对于任何有效的红黑树还增加了如下的额外要求:

  1. 节点要么是黑色要么是红色
  2. 根节点一定是黑色的
  3. 每个叶子节点都带有两个空(NIL)的黑色节点
  4. 每个红色节点的两个子节点一定是黑色的,因此不会存在两个连续的红节点,红节点的父节点一定是黑色节点
  5. 从任一节点到它所能到达的叶子节点的所有路径都包含相同数目的黑色节点。从而达到黑色平衡。(平衡二叉树是一个完美平衡的树,红黑树是非完美平衡树,但是一个完美的黑色平衡二叉查找树)

image.png

节点名称

父节点——P(Parent)

祖父节点——G(GrandParent)

叔叔节点——U(Uncle)

当前节点——C(Current)

兄弟节点——B(Brother)

左孩子——L(Left)

右孩子——R(Right)

B树

思考

数据库的正删改查等操作是开发过程中最常见也是尤为重要的,尤其是现在大数据的兴起,导致数据存储量急剧增加,提升数据的操作效率就变得尤为关键。大部分数据库的索引都采用数的结构存储,这是因为树的查询效率相对较高,且保持有序。

对于二叉搜索树的时间复杂度是O(logN),在算法以及逻辑上来分析,二叉搜索树的查找速度以及数据比较次数都是较小的。但是我们不得不考虑一个新的问题,数据量是远大于内存大小的,那我们在查找数据时,并不能将全部数据同时加载至内存。既然不能全部加载至内存中就只能逐步的去加载磁盘中某个页,简而言之就是逐一的去加载磁盘,将数据分块加载至内存进行查找与比较。

如图所示,在树中查找10,树的每个节点代表一个磁盘页,相当于每次访问一个新节点代表一次磁盘IO

image.png

image.png

image.png

image.png

image.png

通过查找过程可以看出,磁盘IO次数是跟树的高度相关,在最坏的情况下,磁盘IO次数等于树的高度。由于磁盘IO过程是相对耗时效率较低的,因此,在设计数据存储结构时需要降低树的高度,即将一颗高瘦的树变得矮胖。

当数据数目相同,在保持有序前提下,降低树高度,只需将节点中存储的key值增加,即二叉搜索树中每个节点只有一个数据元素,而在B树中每个节点可以有多个数据元素。

定义

B树也称B-树。它是一颗多路平衡查找树(所有的叶子节点拥有相同的高度)。当描述一颗B树时需要指定它的阶数,阶数表示一个节点最多有多少个孩子节点,一般用字母m表示,当m取2时,就是一颗二叉查找树。

要定义一颗m阶的B树,需要遵循以下五条原则:

  1. 根节点最少要有一个元素,且至少要有2个子节点
  2. 每个节点最多有m-1个元素
  3. 非根节点至少有(m/2)-1个元素。m/2要进行向上取整,如m/2=1.5=2
  4. 每个节点中的元素都按照从小到大的顺序排列,每个元素的左子树中的所有元素都小于它,而右子树的所有元素都大于它
  5. 所有叶子节点都位于同一层,相当于根节点到每个叶子节点的长度相同

操作

B树的查找其实是对二叉搜索树查找的扩展, 与二叉搜索树不同的地方是,B-树中每个节点有不止一棵子树。在B-树中查找某个结点时,需要先判断要查找的结点在哪棵子树上,然后在结点中逐个查找目标结点。B树的查找过程相对简单,与二叉搜索树类似,因此不再赘述。

插入

B树的插入操作是指在树种插入一条新记录,即(key, value)的键值对。如果B树中已存在需要插入的键值对,则用需要插入的value替换旧的value。若B树不存在这个key,则一定是在叶子结点中进行插入操作。

插入流程如下:

1)根据要插入的key的值,对B树执行查找操作,查找到待插入数据的当前节点位置。

2)判断当前节点key的个数是否小于等于m-1,若满足,则直接插入数据。

3)若不满足,以节点中间的key为中心分裂成左右两部分,然后将这个中间的key插入到父节点中,这个key的左子树指向分裂后的左半部分,这个key的右子树指向分裂后的右半部分,然后将当前节点指向父节点,继续执行第三步。

下面以5阶B树为例,介绍B树的插入操作,在5阶B树中,结点最多有4个key,最少有2个key。 1:插入38,此时为空树,直接插入,并作为根节点。继续插入22、76、40,符合情形(2),直接插入。

image.png

2:插入51,符合情形(3),执行分裂。

image.png

3:按照相同的步骤继续插入13、21

image.png

4:插入39,符合情形(3),导致节点分裂。选择中值22作为父节点,并将22节点上移,与40节点进行合并。

image.png

5:按照同样的插入规则,继续向树中插入key为30、27、33、36、35、34、24、29的数据。

image.png

6:继续插入key为26的数据,插入之后需要执行节点分裂。

image.png

7:将key为27的数据节点上移至父节点

image.png

8:此时父节点已经有4个key,插入key27的数据后需要执行节点分裂,树的高度加1。

image.png

9:再依次插入14,23,28,29,31,32。

image.png

删除

删除流程如下:

1)如果当前需要删除的key位于非叶子结点,则用距离最近的后继key覆盖要删除的key。然后在后继key所在的子支中删除该后继key。此时后继key一定位于叶子节点上,这个过程和二叉搜索树删除节点的方式类似。

2)删除这个记录后,若该节点key个数大于等于(m/2)-1,结束删除操作。

3)如果不是,则如果兄弟节点key个数大于(m/2)-1,则父节点中的key下移到该节点,兄弟节点中的一个key上移,删除操作结束。

4)否则,将父节点中的key下移与当前节点及它的兄弟节点中的key合并,形成一个新的节点。原父节点中的key的两个孩子指针就变成了一个孩子指针,指向这个新节点。然后当前节点的指针指向父节点,重复步骤2。

图解流程:

image.png

image.png

image.png

image.png

性能分析

B树是一种平衡的多路查找树,其设计思路主要是通过存储不止一个key,来降低树的高度。同等比较次数下,树的高度小保证磁盘IO次数相对较少,提高查询效率,在文件系统中以及数据库索引等场景下应用较多,如MongoDB

查找性能:B树的查找分两种:一种是从一个节点查找另外一个节点的地址时,需要定位磁盘地址(查找地址),查找代价极高。另一种是将节点中的有序关键字放入内存,进行优化查找(可以用折半),相比查找代价极低。而B树的高度很小,因此在这一背景下,B树比任何二叉结构查找树的效率都要高很多。

插入性能:B树的插入会发生节点的分裂操作。当插入操作引起了s个节点的分裂时,磁盘访问的次数为h(读取搜索路径上的节点)+2s(会写两个分裂出的新节点)+1(回写新的根节点或插入后没有导致分裂的节点)。因此,所需要的磁盘访问次数是h+2s+1,最多可达到3h+1.因此插入的代价较大。

删除性能: B树的删除会发生结点合并操作。最坏情况下磁盘访问次数是3h=(找到包含被删除元素需要h次读访问)+(获取第2至h层的最相邻兄弟需要h-1次读访问)+(在第3至h层的合并需要h-2次写访问)+(对修改过的根节点和第2层的两个节点进行3次写访问)。