数据结构之B-树

791 阅读3分钟

下面来具体介绍一下B-树(Balance Tree),一个m阶的B树具有如下几个特征:

  1. 根结点至少有两个子女。
  2. 每个中间节点都包含k-1个元素和k个孩子,其中 m/2 <= k <= m
  3. 每一个叶子节点都包含k-1个元素,其中 m/2 <= k <= m
  4. 所有的叶子结点都位于同一层。
  5. 每个节点中的元素从小到大排列,节点当中k-1个元素正好是k个孩子包含的元素的值域分划。

我们以一个三阶B-树为例,来看看B-树的具体结构:

img

这颗树中,重点来看(2,6)节点,该节点有两个元素2和6,又有 三个孩子1,(3,5),8。其中1小于2,(3,5)在2,6之间,8大于(3,5),正好符合刚才所列的几条特征。

img

B-树的查询

第1次磁盘IO:

img

在内存中定位(和9比较):

img

第2次磁盘IO:

img

在内存中定位(和2,6比较):

img

第3次磁盘IO:

img

在内存中定位(和3,5比较):

img

通过整个流程我们可以看出,B-树在查询中的比较次数其实不比二叉查找树少,尤其当单一节点中的元素数量很多时;可是相比磁盘IO的速度,内存中的比较耗时几乎可以忽略,所以只有树的高度足够低,IO次数足够少,就可以提升查找性能。相比之下节点内部元素多一些也没有关系,仅仅是多了几次内存的交互,只要不超过磁盘页的大小即可,这就是B-树的优势之一。

B-树的插入

假如我们要插入的是4,下面来演示一下:

自顶向下查找4的节点位置,发现4应当插入到节点元素3,5之间。

img

节点3,5已经是两元素节点,无法再增加。父亲节点 2, 6 也是两元素节点,也无法再增加。根节点9是单元素节点,可以升级为两元素节点。于是拆分节点3,5与节点2,6,让根节点9升级为两元素节点4,9。节点6独立为根节点的第二个孩子。

img

B-树的插入过程是比较复杂的,从上面的例子可以看出,插入一个新的元素4,结果导致整个B树的那么多节点发生了连锁反应,但是正因为如此,让B-树能够始终维持多路平衡,这也是B-树的一大优势:自平衡。

B-树的删除

假如我们删除的是11,下面也演示一下:

自顶向下查找元素11的节点位置。

img

删除11后,节点12只有一个孩子,不符合B树规范。因此找出12,13,15三个节点的中位数13,取代节点12,而节点12自身下移成为第一个孩子。(这个过程称为左旋

img

img

B-树的应用

B-树主要应用于文件系统以及部分数据库的索引,比如著名的非关系型数据库MongoDB。