MySQL--索引原理(4-1)

80 阅读4分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第32天,点击查看活动详情

索引原理

MySQL官方对索引定义:是存储引擎用于快速查找记录的一种数据结构。需要额外开辟空间和数据维护工作。

  • 索引是物理数据页存储,在数据文件中(InnoDB,ibd文件),利用数据页(page)存储。
  • 索引可以加快检索速度,但是同时也会降低增删改操作速度,索引维护需要代价。

MySQL默认使用B+树结构管理索引,B+树中的B代表平衡(balance ),在讲B+树之前必须先了解二叉树、平衡二叉树(AVL) 和 B-Tree,因为B+Tree即由这些树逐步优化而来。

1.二叉查找树

下面是一张数据库的表,有两列,分别是 Col1 和 Col2

image.png

我们来查找一下col2=89的这行数据,SQL语句如下:

select * from a where col2 = 87

没有用索引时执行上面的查询 , 数据从磁盘一条一条拿来对比最终找到结果,如果数据表很大,数据又在表尾的话,需要花费非常多的时间检索,效率低下。

image.png

优化方式: 使用二叉查找树

为了加快查找,可以维护一个二叉树,二叉树具有以下性质:左子树的键值小于根的键值,右子树的键值大于根的键值。 每个节点分别保存字段数据和一个指向对应数据记录物理地址的指针.

这样查找时 就可以使用二叉树查找获取相应的数据,从而快速检索出符合条件的记录

image.png

对该二叉树的节点进行查找发现深度为1的节点的查找次数为1,深度为2的查找次数为2,深度为n的节点的查找次数为n,因此其平均查找次数为 (1+2+2+3+3+3+3) / 6 = 2.8次.

二叉查找树的缺点

MySQL 索引底层使用的并不是二叉树,因为二叉树存在一个很大的缺陷,就是在存储有序的数据时,最终的排列结构会形成一个单向链表,对于读取某个指定节点时效率会很低.

2.平衡二叉树 (AVL Tree)

image.png

二叉查找树存在不平衡的问题,那么可以通过树的叶子节点自动旋转和调整,让二叉树始终保持基本平衡的状态,这样就能够保持二叉查找树的最佳性能。AVL树 就是基于以上思路的自调整平衡二叉树.

平衡二叉树(AVL树)在符合二叉查找树的条件下,还满足任何节点的两个子树的高度最大差为1。

AVL 树与非AVL树对比

左边是AVL树,它的任何节点的两个子树的高度差<=1

右边的不是AVL树,其根节点的左子树高度为3,而右子树高度为1;

image.png

AVL树的旋转方式

AVL树失去平衡之后,可以通过旋转使其恢复平衡. 接下来我们来介绍一下两种失去平衡的情况下对应的旋转方式.

  • LL旋转(左左旋转),根节点的左子树高度比右子树高度高2. 恢复步骤:

    1. 将根节点的左孩子作为新根节点
    2. 将新根节点的右孩子作为原来根节点的左孩子
    3. 将原根节点的作为新根节点的右孩子

image.png

  • RR旋转(右右旋转) ,根节点的右子树高度比左子树高度高2,旋转方法与LL旋转对称

    1. 将根节点的右孩子作为新根节点
    2. 将新根节点的左孩子作为原来根节点的右孩子
    3. 将原根节点的作为新根节点的左孩子

image.png

AVL树的优缺点

  • 优点

    • 叶子节点的层级减少
    • 形态上能够保持平衡
    • 查询效率提升,大量的顺序插入也不会导致查询性能的降低.
  • 缺点

    • 一个节点最多分裂出两个子节点, 树的高度太高,导致IO次数过多
    • 节点里面只保存着一个关键字,每次操作获取的目标数据太少