揭开 mysql 神秘的面纱(二)——索引篇

299 阅读10分钟

索引

索引是帮助mysql高效获取数据的数据结构。数据库索引好比是一本书的目录,能加快数据库的查询速度。

优势:提高数据库检索的速度,减少数据库的IO访问次数;通过索引对数据排序,索引(单列、组合)的列会自动排序;where索引列在存储层处理,索引下推(ICP);覆盖索引,select列是索引,不回表。

劣势:占据磁盘空间;增删改操作需维护索引;mysql不仅要保存数据,还要保存或修改索引数据。

分类

单列索引

一个索引只包含一个列,但一个表中可以有多个单列索引。

普通索引

​ mysql中的基本索引类型,没有限制,允许在定义索引中的列插入重复值和空值。

唯一索引

​ 索引中的值必须是唯一的,和主键索引的区别在于索引中的列值可以为空值。

主键索引

​ 特殊的索引类型,不允许有空值。在innodb存储引擎中,必须存在主键索引,如果建立表结构的时候没有指定主键索引,则会默认选用具有唯一性的列作为主键索引;若还不存在唯一列,则会自动生成伪列作为主键索引。故innodb存储引擎的表结构最好指定主键索引,最好不要使用uuid作为主键,不好排序,且占用空间

组合索引

在表中的多个字段共同创建一个索引,只有在查询时满足最左前缀的条件,才会使用索引。

全文索引

全文索引,只有在myisam存储引擎中才可使用,只能在CHAR,VARCHAR,TEXT类型字段上使用全文索引。由于其占用了较大的物理空间和降低了修改的维护性,不推荐使用。

使用

创建索引

# 单列索引-普通索引
create index index_name on table(column(length));
alter table table_name add index index_name (column(length)) using btree;

# 单列索引-唯一索引
create unique index index_name on table(column(length));
alter table table_name add unique index index_name(column(length)) using btree;

# 单列索引-全文索引
create fulltext index index_name on table(column(length));
alter table table_name add fulltext index_name(column(length)) using btree;

# 组合索引
alter table demeter add index index_title_time(title(50), time(10)) using btree;

删除索引

drop index index_name on table;

查看索引

show index from table_name;

原理

索引的存储结构
存储结构
  • 索引是在存储引擎中实现的,不同的存储引擎会使用不同的索引
  • myisam和innodb存储引擎只支持B+TREE索引
  • memory/heap存储引擎支持hash和BTREE索引
B树和B+树

B树定义

B树又称作平衡多路查找树。一颗m阶的B树(意味着一个节点最多有m个子树)

  1. 树中每个结点最多含有m个孩子(m>=2)
  2. 除根结点和叶子结点外,其他每个结点至少有[ceil(m / 2)]个孩子(ceil是一个取上限的函数)
  3. 若根结点不是叶子结点,则至少有2个孩子

B树图示

Aleyson爱逼逼

基于上述图示的层级结构,入需查询29数据时,会发生多少次IO:

  1. 找到磁盘块1,加载到内存中(一次IO)

  2. 查到29大于17,小于35,故属于P2指针指向的磁盘块;找到磁盘块3,加载到内存中(一次IO)

  3. 查到29大于26,小于30,故属于当前磁盘块P2指针指向的磁盘块;找到磁盘块8,加载到内存中(一次IO)

  4. 在磁盘块8中找到匹配的29

    故该次查找发生了三次IO操作,极大的增加了数据查找的性能。

B+树图示

Aleyson爱逼逼

B树是为了磁盘或其他存储设备设计的一种多叉平衡查找树,下面是其数据结构示例图:

  • B树的高度一般在2-4这个高度,树的高度直接影响到IO读写的次数。
  • 如果是三层结构--支撑的数据可以达到20个G;如果是四层结构--支撑的数据可以达到几十个T。

B树和B+树的区别:

  1. 非叶子节点是否存储数据,B树会存数据,B+树不会存数据。
  2. B树是非叶子节点和叶子节点都会存储数据。
  3. B+树只有叶子节点才会存储数据,而且存储的数据都是在一行上,而且这些数据都是有指针指向的,也就是有顺序的。
非聚集索引(myisam)

索引与数据存储在两个文件中(索引文件、数据文件),主键索引上的叶子结点存储的是数据的地址,通过该地址获取到对应的数据。

主键索引

Aleyson爱逼逼

辅助索引

Aleyson爱逼逼

聚集索引(innodb)

索引与数据存储在一个文件中,主键索引的叶子结点存储了完整的数据。

主键索引

Aleyson爱逼逼

辅助索引

Aleyson爱逼逼

次要索引叶子结点只会保存当前索引列的值和主键的值,当select列不满足时,会根据主键再查一次主键索引(回表)。

失效

  1. 最左前缀规则

  2. 索引上不要做计算或使用函数

  3. 尽量使用覆盖索引

  4. 索引字段不要使用不等(!=, <>),会导致主键索引使用范围索引,辅助索引会失效。

  5. 主键索引不能使用is not null语句,会导致全表扫描

  6. 索引字段使用like,不要用通配符开头

  7. 索引字段字符串类型要加引号

  8. 索引字段不要使用or

    总结(假设index(a, b, c))

    where语句索引是否被使用
    where a = 3使用-a
    where a = 3 and b = 5使用-a,b
    where a= 3 and b = 5 and c = 4使用-a,b,c
    where b = 3 或 where b = 3 and c = 4 或 where c = 4不使用
    where a = 3 and c = 5使用-a
    where a =3 and b > 4 and c = 5使用-a,b
    where a =3 and b like 'haha%' and c = 4使用-a,b,c
    where a =3 and b like '%haha' and c = 4使用-a
    where a =3 and b like '%haha%' and c = 4使用-a
    where a =3 and b like 'h%aha%' and c = 4使用-a,b,c

执行计划

参数说明

# explain 出来的信息有十列,分别是:
id、select_type、table、type、possible_keys、key、key_len、ref、rows、Extra
id
  • 每个select语句会自动分配一个标识符
  • 根据表的操作顺序分为以下几种情况
    • id相同:从上往下顺序执行
    • id不同:id越大,优先级越高
    • id相同的不同的同时存在
    • id为null:表示这是一个结果集,不需要使用它来查询
select_type

​ 查询类型,用来区别普通查询、联合查询、子查询等查询操作。

  • simple

    表示不需要union或子查询的简单select查询。

  • primary

    一个需要union操作或者还有子查询的select,位于最外层的单位查询。

  • subquery

    除了from子句中包含的子查询外,其余的所有子查询。

  • dependent subquery

    与dependent union类似,表示这个subquery的查询要受到外部表查询的影响

  • union

    union连接的两个select查询,第一个查询是PRIMARY,除了第一个表外,第二个以后的表select_type都是union

  • dependent union

    与union一样,出现在union 或union all语句中,但是这个查询要受到外部查询的影响

  • union result

    包含union的结果集,在union和union all语句中,因为它不需要参与查询,所以id字段为null

  • derived

    from字句中出现的子查询,也叫做派生表,其他数据库中可能叫做内联视图或嵌套select

table
  • 显示的查询表名,如果使用的别名,就展示别名
  • 不涉及表操作,则显示null
  • 尖括号(<>)括起来的表示一个临时表,后面的N就是计划执行的id
type
# 从左到右,依次变差
system、const、eq_ref、ref、fulltext、ref_or_null、unique_subquery、index_subquery、range、index_merge、index、ALL

除了ALl之外,其他所有的type都可以使用到索引。最少索引要使用到range级别

  • system

    表中只有一行数据或者空表。

  • const

    使用唯一索引或者主键索引,返回记录一定是一行记录的等值where条件时,通常type是const。

  • eq_ref

    关键字:连接字段主键或者唯一索引。该类型通常出现在关联查询中,对于前表的每一行结果,都能匹配到后表的一行结果。

  • ref

    针对非唯一索引,使用**等值(=)**查询非主键。或者使用的最左前缀规则索引的查询。

  • fulltext

    全文索引检索,要注意,全文索引的优先级很高,若全文索引和普通索引同时存在时,mysql不管代价,优先选择使用全文索引

  • ref_or_null

    与ref方法类似,只是增加了null值的比较。实际用的不多

  • unique_subquery

    用于where中的in形式子查询,子查询返回不重复值唯一值

  • index_subquery

    用于in形式子查询使用到了辅助索引或者in常数列表,子查询可能返回重复值,可以使用索引将子查询去重

  • range

    索引范围扫描,常见于使用>,<,is null,between ,in ,like等运算符的查询中

  • index_merge

    表示查询使用了两个以上的索引,最后取交集或者并集,常见and ,or的条件使用了不同的索引,官方排序这个在ref_or_null之后,但是实际上由于要读取所个索引,性能可能大部分时间都不如range

  • index

    关键字:条件是出现在索引树中的节点的。可能没有完全匹配索引。索引全表扫描,把索引从头到尾扫一遍,常见于使用索引列就可以处理不需要读取数据文件的查询、可以使用索引排序或者分组的查询。

  • all

    全表扫描数据文件,然后再在server层进行过滤返回符合要求的记录

possible_keys

​ 此次查询可能使用的索引

key

​ 此次查询真是使用的索引

key_len
  • 用于处理查询的索引长度
    • 单列索引:整个索引长度
    • 多列索引:用了多少算多少(这里就可以根据该值分析多列索引的使用情况)
  • 该值只计算where条件使用的索引情况,不包含group by和order by的索引使用。
ref
  • 使用常数等值查询,这里显示const
  • 连接查询,被驱动表的执行计划会显示驱动表的关联字段
  • 表达式或者函数,或者隐式转换,可能显示为func
rows

​ 显示执行计划中估算的扫描行数,不是精确值(innodb不是精确值,myisam是精确值,由于innodb中使用了mvcc)

Extra
  • no tables used

    不带from字句的查询或者From dual查询;使用not in()形式子查询或not exists运算符的连接查询,这种叫做反连接,即,一般连接查询是先查询内表,再查询外表,反连接就是先查询外表,再查询内表

  • using fifilesort

    • 排序时无法使用到索引时,就会出现这个。常见于order by和group by语句中

    • 说明MySQL会使用一个外部的索引排序,而不是按照索引顺序进行读取。

    • MySQL中无法利用索引完成的排序操作称为“文件排序”

  • using index

    查询时不需要回表查询,直接通过索引就可以获取查询的数据。

    • 表示相应的SELECT查询中使用到了覆盖索引(Covering Index),避免访问表的数据行,效率不错
    • 如果同时出现Using Where ,说明索引被用来执行查找索引键值
    • 如果没有同时出现Using Where ,表明索引用来读取数据而非执行查找动作
  • using temporary

    表示使用了临时表存储中间结果。

    • MySQL在对查询结果order bygroup by时使用临时表

    • 临时表可以是内存临时表和磁盘临时表,执行计划中看不出来,需要查看status变量,used_tmp_table,used_tmp_disk_table才能看出来。

    • distinct,在select部分使用了distinct关键字 (索引字段)

  • using where

    • 表示存储引擎返回的记录并不是所有的都满足查询条件,需要在server层进行过滤
    • 查询条件中分为限制条件检查条件,5.6之前,存储引擎只能根据限制条件扫描数据并返回,然后server层根据检查条件进行过滤再返回真正符合查询的数据。5.6.x之后支持ICP特性,可以把检查条件也下推到存储引擎层,不符合检查条件和限制条件的数据,直接不读取,这样就大大减少了存储引擎扫描的记录数量。extra列显示using index condition

使用场景

需要索引

  1. 主键自动建立唯一索引。
  2. 频繁作为查询条件的字段应该创建索引。
  3. 多表关联中,关联字段应该创建索引,on两边都应该创建索引。
  4. 查询排序的字段因该创建索引。
  5. 覆盖索引不需要回表,视情况使用。
  6. 统计或分组字段,应该创建索引。

不需要索引

  1. 表记录较少,不需要创建索引(索引的创建也有开销)。
  2. 频繁更新的字段不需要创建索引(需维护索引)。
  3. 查询使用频率不高的字段不需要创建索引。