索引数据结构:B-Tree与B+Tree详解

2,067 阅读3分钟

1、思考🤔问题为什么要使用索引?

  • 索引能极大的减少存储引擎需要扫描的数据量。
  • 索引可以把随机IO变成顺序IO。
  • 索引可以帮助我们在进行分组、排序等操作时,避免使
    用临时表。

2、思考🤔问题索引的底层数据结构有哪些,优缺点是什么?

索引常用的数据结构有:
1、hash结构。
2、B+Tree结构。

索引结构

优点

缺点

hash结构

数据量小时等值查询效率高

1、索引无法完成排序。
2、无法区间查询。
3、无法利用部分索引 。
4、大量Hash值冲突,性能无法保证。

B+Tree结构

1、减少扫描的数据量。
2、把随机IO变成了顺序IO。
3、hash的缺点

占用物理空间

3、思考🤔为什么是B+Tree?

Tree的数据结构:
1、二叉查找树:(Binary Search Tree)
缺点:树的高度没有约束,导致查询效率时间复杂度较高O(n)。

二叉查找树

2、平衡二叉树(AVL树):(Balance Binary Search Tree)
缺点:改善了查询的复杂度问题(约束了左右子树相差高度不能大于1),但是树的高度==IO次数,即使左右子树拉平了,但是高度带来的IO问题依然无法接收,而且每块磁盘块(节点/页)太小,没有利用好IO数据交换特性。

平衡二叉树

3、B-Tree结构(多路平衡树):
缺点:

多路平衡树

一颗 m 阶B-tree的定义:一个节点最多有 n 个key(关键字),那么这个节点最多就会有 n+1 个子节点,这棵树就叫做 n+1(m=n+1)阶树。(个节点能拥有的最大子节点数来表示这颗树的阶数)
一棵m阶的B-Tree有如下特性:关键字(n), 路/阶(m),度()
1. 每个节点最多有m个子节点。 
2. 除了根节点和叶子节点外,其它每个节点至少有Ceil(m/2)个孩子。 
3. 若根节点不是叶子节点,则至少有2个孩子。 
4. 所有叶子节点都在同一层,且不包含其它关键字信息。
5. 关键字的个数n满足:ceil(m/2)-1 <= n <= m-1 
6. ki(i=1,…n)为关键字,且关键字升序排序。 
7. Pi(i=1,…n)为指向子树根节点的指针。P(i-1)指向的子树的所有节点关键字均小于ki,但都大于k(i-1)
8. 每个非终端节点包含n个关键字信息(P0,P1,…Pn, k1,…kn) 

阶(m):P1、P2、P3
关键字(n):n<=m-1
高度:xx
如图:阶=3,关键字=2。
mysql默认最小的磁盘块空间大小:16k,int 类型的id作为关键字大小:4byte+4byte。所以关键字个数=磁盘块空间/id:
关键字最多个数=(16*1024)/(4+4)=2048个,那么度<=路<=2048+1=2049。(尽量通过增加路来降低高度)
查看mysql页的数据大小:show variables like 'innodb_page_size';

4、B+Tree结构:

缺点:

B+Tree与B-Tree区别:

1B+节点关键字搜索采用闭合区间。
2B+非叶节点不保存数据相关信息,只保存关键字和子节点的引用。
3B+关键字对应的数据保存在叶子节点中。 
4B+叶子节点是顺序排列的,并且相邻节点具有顺序引用的关系。

B+Tree优势:

B+树是B-树的变种(PLUS版)多路绝对平衡查找树,他拥有B-树的优势。
B+树扫库、表能力更强。
B+树的磁盘读写能力更强。
B+树的排序能力更强。
B+树的查询效率更加稳定(仁者见仁、智者见智)。

作者:biudefu
链接:www.jianshu.com/p/171ba693f…