MySQL索引底层数据结构MySQL索引底层数据结构介绍了索引的本质、常见索引数据结构、以及MySQL为何选择B+树结构

MySQL索引底层数据结构

索引的本质

索引的出现其实就是为了提高数据查询的效率，就像书的目录一样。
MySQL的B+树索引模型是帮助其高效获取数据的排好序的数据结构。

常见索引模型

索引的出现是为了提高查询效率，但是实现索引的方式却有很多种，这里主要给你介绍三种常见的数据结构：哈希表、数组、搜索树。

1.哈希表

哈希表的查询时间复杂度是O(1)，但是哈希表的缺陷是不支持范围查询的，当sql中涉及到范围查询时，哈希表的效率就会很低，只能扫描全表来判断了。

所以，哈希表这种结构适用于只有等值查询的场景，比如 Memcached 及其他一些 NoSQL 引擎。

而有序数组在等值查询和范围查询场景中的性能就都非常优秀

2.有序数组

有序数组的查询可以使用二分，时间复杂度是O(logn)。如果只看查询有序数组性能很高，但如果涉及到更新，你往中间插入一个记录就必须得挪动后面所有的记录，成本太高。

所以，有序数组索引只适用于静态存储引擎，比如你要保存的是 2017 年某个城市的所有人口信息，这类不会再修改的数据。

3.搜索树

3.1 二叉搜索树

二叉搜索树的特点是：父节点左子树所有结点的值小于父节点的值，右子树所有结点的值大于父节点的值。基于此二叉搜索树的查询时间复杂度为[O(logn), O(n)]。当然为了维持 O(log(N)) 的查询复杂度，你就需要保持这棵树是平衡二叉树。为了做这个保证，更新的时间复杂度也是 O(log(N))。

3.2 多叉搜索树

多叉树每个节点都可以有多个子节点，每个节点的子节点数量上限为m。每个子节点都保证从左到右递增。时间复杂度m*O(logn) 近似O(logn)

二叉树是搜索效率最高的，但是实际上大多数的数据库存储却并不使用二叉树。其原因是，索引不止存在内存中，还要写到磁盘上。

这里举个例子，假设一棵 100 万节点的平衡二叉树，树高约 20。机械硬盘中每一次磁盘IO大约10ms，也就是说最坏情况需要20×10ms才能查询到数据。非常的慢了。

为了让一个查询尽量少地读磁盘，就必须让查询过程访问尽量少的数据块。那么，我们就不应该使用二叉树，而是要使用“N 叉”树。这里，“N 叉”树中的“N”取决于数据块的大小。

以 InnoDB 的一个整数字段索引为例，一个数据页16KB，bigint占8B，指针占6B。所以N = 16KB / (8B + 6B) = 1170个，假设树高 h = 3，大约就可以存 1170^3 大约 16亿个数据了。考虑到树根的数据块一直在内存，实际就2次磁盘IO就能找到数据了。（其实第二层大概率也在内存）

多叉树由于在读写上的性能优点，以及适配磁盘的访问模式，已经被广泛应用在数据库引擎中了。