索引数据结构：B-Tree与B+Tree详解1、思考🤔问题为什么要使用索引？索引能极大的减少存储引擎需要扫描的数据量

1、思考🤔问题为什么要使用索引？

索引能极大的减少存储引擎需要扫描的数据量。
索引可以把随机IO变成顺序IO。
索引可以帮助我们在进行分组、排序等操作时，避免使
用临时表。

2、思考🤔问题索引的底层数据结构有哪些，优缺点是什么？

索引常用的数据结构有：
1、hash结构。
2、B+Tree结构。

索引结构

优点

缺点

hash结构

数据量小时等值查询效率高

1、索引无法完成排序。
2、无法区间查询。
3、无法利用部分索引。
4、大量Hash值冲突，性能无法保证。

B+Tree结构

1、减少扫描的数据量。
2、把随机IO变成了顺序IO。
3、hash的缺点

占用物理空间

3、思考🤔为什么是B+Tree？

Tree的数据结构：
1、二叉查找树：（Binary Search Tree）
缺点：树的高度没有约束，导致查询效率时间复杂度较高O(n)。

二叉查找树

2、平衡二叉树（AVL树）：（Balance Binary Search Tree）
缺点：改善了查询的复杂度问题（约束了左右子树相差高度不能大于1），但是树的高度==IO次数，即使左右子树拉平了，但是高度带来的IO问题依然无法接收，而且每块磁盘块（节点/页）太小，没有利用好IO数据交换特性。

平衡二叉树

3、B-Tree结构（多路平衡树）：
缺点：

多路平衡树

一颗 m 阶B-tree的定义：一个节点最多有 n 个key(关键字)，那么这个节点最多就会有 n+1 个子节点，这棵树就叫做 n+1（m=n+1）阶树。（个节点能拥有的最大子节点数来表示这颗树的阶数）
一棵m阶的B-Tree有如下特性：关键字(n)， 路/阶(m)，度()
1. 每个节点最多有m个子节点。 
2. 除了根节点和叶子节点外，其它每个节点至少有Ceil(m/2)个孩子。 
3. 若根节点不是叶子节点，则至少有2个孩子。 
4. 所有叶子节点都在同一层，且不包含其它关键字信息。
5. 关键字的个数n满足：ceil(m/2)-1 <= n <= m-1 
6. ki(i=1,…n)为关键字，且关键字升序排序。 
7. Pi(i=1,…n)为指向子树根节点的指针。P(i-1)指向的子树的所有节点关键字均小于ki，但都大于k(i-1)
8. 每个非终端节点包含n个关键字信息（P0,P1,…Pn, k1,…kn）

阶(m)：P1、P2、P3
关键字(n)：n<=m-1
高度：xx
如图：阶=3，关键字=2。
mysql默认最小的磁盘块空间大小：16k，int 类型的id作为关键字大小：4byte+4byte。所以关键字个数=磁盘块空间/id：
关键字最多个数=(16*1024)/(4+4)=2048个，那么度<=路<=2048+1=2049。(尽量通过增加路来降低高度)
查看mysql页的数据大小：show variables like 'innodb_page_size';

4、B+Tree结构：

缺点：

B+Tree与B-Tree区别：

1，B+节点关键字搜索采用闭合区间。
2，B+非叶节点不保存数据相关信息，只保存关键字和子节点的引用。
3，B+关键字对应的数据保存在叶子节点中。 
4，B+叶子节点是顺序排列的，并且相邻节点具有顺序引用的关系。

B+Tree优势：

B+树是B-树的变种（PLUS版）多路绝对平衡查找树，他拥有B-树的优势。
B+树扫库、表能力更强。
B+树的磁盘读写能力更强。
B+树的排序能力更强。
B+树的查询效率更加稳定（仁者见仁、智者见智）。

作者：biudefu
链接：www.jianshu.com/p/171ba693f…