MySql索引深入分析

87 阅读5分钟

8cb6982b528ea8f3691827a52f2c85b5.jpg

索引是什么,有什么用,为什么会出现在MySql中呢,我们应该如何搭配出合适的索引呢?本文从理论到实践,一点点分析

前面两篇MySql的基础中对索引一笔带过,简单介绍了一些基础的概念,本文是对索引的详细介绍,从专题出发,一点点介绍

是什么?

  • MySql官方对索引的定义为:索引(index)是帮助MySql高效获取数据的数据结构。可以得到索引的本质:是一种数据结构
  • 索引的目的在于提高查询效率,可以类比字典的目录
  • 可以简单理解为“排好序的快速查找数据结构”
  • 在数据之外,数据库系统还维护着满足特定查找算法的数据结构。这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法。这种数据结构 就是 索引。下图就是一种可能的索引方式实例:

image.png

  • 为了加快Col2的查找,可以维护一个右侧的二叉查找树,每个节点分别包含索引键值和一个指向对应数据物理地址的指针,这样就可以运用二叉查找在一定的复杂度内获取到相应数据,从而快速检索出符合规则的数据
  • 一般来说索引本身也很大,不可能全部存储在内存中,因此索引往往以索引文件的形式存储在磁盘中
  • 我们平常所说的索引,如果没有特别指明,都是指B树(多路搜索树,并不一定是二叉树)结构组织的索引。其中聚集索引,次要索引,覆盖索引,复合索引,前缀索引,唯一索引默认都是使用B+树索引。当然,除了B+树这种索引之外还有哈希索引(hash index)等。
  • 优势:
    • 提高数据检索的效率,降低数据库的IO成本。
    • 通过索引列对数据进行排序,降低数据排序的成本,降低了CPU的消耗
  • 劣势:
    • 实际上索引也是一张表,该表保存了主键和索引字段,并指向实体表的记录,所以索引列也是要占用空间的
    • 虽然索引大大提高了查询速度,但是会降低更新表的速度,如对表进行insert,update,delete。因为更新表时,Mysql不仅要保存数据,还要保存一下索引文件每次更新添加了索引列的字段,都会调整因为更新所带来的键值变化后的索引信息
    • 索引只是提高效率的一个因素,如果你的Mysql有大数据量的表,就需要花时间研究建立最优秀的索引,或优化查询语句。

MySql索引的分类

  • 单值索引 :一个索引只包含一个列,一个表可以有多个单值索引,建议不超过5个单值索引。
  • 唯一索引:索引列的值必须唯一,可以有空值。
  • 复合索引:一个索引包含多个列

通过索引查找数据的过程

  • BTree为例:

image.png

  • 如果要查找数据项29,那么首先会把磁盘块1由磁盘加载到内存,此时发生一次IO
  • 在内存中用二分查找确定29在17和35之间,锁定磁盘块1的P2指针,内存时间因为非常短(相比磁盘的IO)可以忽略不计,通过磁盘块1的P2指针的磁盘地址吧磁盘块3由磁盘加载到内存中,发生第二次IO
  • 29在26和38之间,锁定磁盘块3的P2指针,通过指针加载磁盘块8到内存,发生第三次IO
  • 同时内存中做二分查找找到29,结束查询,总计3次IO
  • 其实hash索引的查找效率更高,但是为什么没有成为主流的索引结构呢:
    • 由于仅仅能满足 “=” IN 这样的查询,不能满足范围查询
    • 不能排序查询
    • 不能利用部分索引键查询
    • 不能避免表扫描,
    • 遇到大量hash值相等的情况,查询效率低下

哪些情况需要建立索引

  • 主键自动建立唯一索引
  • 频繁作为查询条件的字段应该创建索引
  • 查询中与其他表关联的字段,外键关系建立索引
  • 频繁更新的字段不适合创建索引
  • where条件里用不到的字段不要建索引
  • 单键/组合索引的选择问题,(在高并发下倾向建立组合索引)
  • 查询中排序的字段,排序的字段如果通过索引去访问将大大提高排序速度
  • 查询中统计或者分组的字段
  • 表记录太少不要建索引
  • 经常增删改的表不要建索引
  • 数据重复 且分布平均的表的字段不要建索引,建立没有太大的实际效果

综上所述,索引可以帮助我们快速的查找数据,但是对写操作会产生额外的性能损耗,所谓有利有弊,自古难两全