揭开 mysql 神秘的面纱（二）——索引篇 mysql中的基本索引类型，没有限制，允许在定义索引中的列插入重复值和空

索引

索引是帮助mysql高效获取数据的数据结构。数据库索引好比是一本书的目录，能加快数据库的查询速度。

优势：提高数据库检索的速度，减少数据库的IO访问次数；通过索引对数据排序，索引（单列、组合）的列会自动排序；where索引列在存储层处理，索引下推（ICP）；覆盖索引，select列是索引，不回表。

劣势：占据磁盘空间；增删改操作需维护索引；mysql不仅要保存数据，还要保存或修改索引数据。

使用

创建索引

# 单列索引-普通索引
create index index_name on table(column(length));
alter table table_name add index index_name (column(length)) using btree;

# 单列索引-唯一索引
create unique index index_name on table(column(length));
alter table table_name add unique index index_name(column(length)) using btree;

# 单列索引-全文索引
create fulltext index index_name on table(column(length));
alter table table_name add fulltext index_name(column(length)) using btree;

# 组合索引
alter table demeter add index index_title_time(title(50), time(10)) using btree;

删除索引

drop index index_name on table;

查看索引

show index from table_name;

原理

索引的存储结构

存储结构

索引是在存储引擎中实现的，不同的存储引擎会使用不同的索引
myisam和innodb存储引擎只支持B+TREE索引
memory/heap存储引擎支持hash和BTREE索引

B树和B+树

B树定义

B树又称作平衡多路查找树。一颗m阶的B树（意味着一个节点最多有m个子树）

树中每个结点最多含有m个孩子（m>=2）
除根结点和叶子结点外，其他每个结点至少有[ceil(m / 2)]个孩子（ceil是一个取上限的函数）
若根结点不是叶子结点，则至少有2个孩子

B树图示

Aleyson爱逼逼

基于上述图示的层级结构，入需查询29数据时，会发生多少次IO：

找到磁盘块1，加载到内存中（一次IO）
查到29大于17，小于35，故属于P2指针指向的磁盘块；找到磁盘块3，加载到内存中（一次IO）
查到29大于26，小于30，故属于当前磁盘块P2指针指向的磁盘块；找到磁盘块8，加载到内存中（一次IO）
在磁盘块8中找到匹配的29

故该次查找发生了三次IO操作，极大的增加了数据查找的性能。

B+树图示

Aleyson爱逼逼

B树是为了磁盘或其他存储设备设计的一种多叉平衡查找树，下面是其数据结构示例图：

B树的高度一般在2-4这个高度，树的高度直接影响到IO读写的次数。
如果是三层结构--支撑的数据可以达到20个G；如果是四层结构--支撑的数据可以达到几十个T。

B树和B+树的区别：

非叶子节点是否存储数据，B树会存数据，B+树不会存数据。
B树是非叶子节点和叶子节点都会存储数据。
B+树只有叶子节点才会存储数据，而且存储的数据都是在一行上，而且这些数据都是有指针指向的，也就是有顺序的。

非聚集索引（myisam）

索引与数据存储在两个文件中（索引文件、数据文件），主键索引上的叶子结点存储的是数据的地址，通过该地址获取到对应的数据。

主键索引

Aleyson爱逼逼

辅助索引

Aleyson爱逼逼

聚集索引（innodb）

索引与数据存储在一个文件中，主键索引的叶子结点存储了完整的数据。

主键索引

Aleyson爱逼逼

辅助索引

Aleyson爱逼逼

次要索引叶子结点只会保存当前索引列的值和主键的值，当select列不满足时，会根据主键再查一次主键索引（回表）。

失效

最左前缀规则
索引上不要做计算或使用函数
尽量使用覆盖索引
索引字段不要使用不等（!=, <>），会导致主键索引使用范围索引，辅助索引会失效。
主键索引不能使用is not null语句，会导致全表扫描
索引字段使用like，不要用通配符开头
索引字段字符串类型要加引号

索引字段不要使用or

总结（假设index(a, b, c)）

where语句	索引是否被使用
where a = 3	使用-a
where a = 3 and b = 5	使用-a，b
where a= 3 and b = 5 and c = 4	使用-a，b，c
where b = 3 或 where b = 3 and c = 4 或 where c = 4	不使用
where a = 3 and c = 5	使用-a
where a =3 and b > 4 and c = 5	使用-a，b
where a =3 and b like 'haha%' and c = 4	使用-a，b，c
where a =3 and b like '%haha' and c = 4	使用-a
where a =3 and b like '%haha%' and c = 4	使用-a
where a =3 and b like 'h%aha%' and c = 4	使用-a，b，c

执行计划

参数说明

# explain 出来的信息有十列，分别是：
id、select_type、table、type、possible_keys、key、key_len、ref、rows、Extra

id

每个select语句会自动分配一个标识符
根据表的操作顺序分为以下几种情况
- id相同：从上往下顺序执行
- id不同：id越大，优先级越高
- id相同的不同的同时存在
- id为null：表示这是一个结果集，不需要使用它来查询

select_type

查询类型，用来区别普通查询、联合查询、子查询等查询操作。

simple

表示不需要union或子查询的简单select查询。
primary

一个需要union操作或者还有子查询的select，位于最外层的单位查询。
subquery

除了from子句中包含的子查询外，其余的所有子查询。
dependent subquery

与dependent union类似，表示这个subquery的查询要受到外部表查询的影响
union

union连接的两个select查询，第一个查询是PRIMARY，除了第一个表外，第二个以后的表select_type都是union
dependent union

与union一样，出现在union 或union all语句中，但是这个查询要受到外部查询的影响
union result

包含union的结果集，在union和union all语句中,因为它不需要参与查询，所以id字段为null
derived

from字句中出现的子查询，也叫做派生表，其他数据库中可能叫做内联视图或嵌套select

table

显示的查询表名，如果使用的别名，就展示别名
不涉及表操作，则显示null
尖括号（<>）括起来的表示一个临时表，后面的N就是计划执行的id

type

# 从左到右，依次变差
system、const、eq_ref、ref、fulltext、ref_or_null、unique_subquery、index_subquery、range、index_merge、index、ALL

除了ALl之外，其他所有的type都可以使用到索引。最少索引要使用到range级别。

system

表中只有一行数据或者空表。
const

使用唯一索引或者主键索引，返回记录一定是一行记录的等值where条件时，通常type是const。
eq_ref

关键字：连接字段主键或者唯一索引。该类型通常出现在关联查询中，对于前表的每一行结果，都能匹配到后表的一行结果。
ref

针对非唯一索引，使用**等值（=）**查询非主键。或者使用的最左前缀规则索引的查询。
fulltext

全文索引检索，要注意，全文索引的优先级很高，若全文索引和普通索引同时存在时，mysql不管代价，优先选择使用全文索引
ref_or_null

与ref方法类似，只是增加了null值的比较。实际用的不多
unique_subquery

用于where中的in形式子查询，子查询返回不重复值唯一值
index_subquery

用于in形式子查询使用到了辅助索引或者in常数列表，子查询可能返回重复值，可以使用索引将子查询去重
range

索引范围扫描，常见于使用>,<,is null,between ,in ,like等运算符的查询中
index_merge

表示查询使用了两个以上的索引，最后取交集或者并集，常见and ，or的条件使用了不同的索引，官方排序这个在ref_or_null之后，但是实际上由于要读取所个索引，性能可能大部分时间都不如range
index

关键字：条件是出现在索引树中的节点的。可能没有完全匹配索引。索引全表扫描，把索引从头到尾扫一遍，常见于使用索引列就可以处理不需要读取数据文件的查询、可以使用索引排序或者分组的查询。
all

全表扫描数据文件，然后再在server层进行过滤返回符合要求的记录

possible_keys

此次查询可能使用的索引

key

此次查询真是使用的索引

key_len

用于处理查询的索引长度
- 单列索引：整个索引长度
- 多列索引：用了多少算多少（这里就可以根据该值分析多列索引的使用情况）
该值只计算where条件使用的索引情况，不包含group by和order by的索引使用。

ref

使用常数等值查询，这里显示const
连接查询，被驱动表的执行计划会显示驱动表的关联字段
表达式或者函数，或者隐式转换，可能显示为func

rows

显示执行计划中估算的扫描行数，不是精确值（innodb不是精确值，myisam是精确值，由于innodb中使用了mvcc）

Extra

no tables used

不带from字句的查询或者From dual查询；使用not in()形式子查询或not exists运算符的连接查询，这种叫做反连接，即，一般连接查询是先查询内表，再查询外表，反连接就是先查询外表，再查询内表
using fifilesort
- 排序时无法使用到索引时，就会出现这个。常见于order by和group by语句中
- 说明MySQL会使用一个外部的索引排序，而不是按照索引顺序进行读取。
- MySQL中无法利用索引完成的排序操作称为“文件排序”
using index

查询时不需要回表查询，直接通过索引就可以获取查询的数据。
- 表示相应的SELECT查询中使用到了覆盖索引（Covering Index），避免访问表的数据行，效率不错
- 如果同时出现Using Where ，说明索引被用来执行查找索引键值
- 如果没有同时出现Using Where ，表明索引用来读取数据而非执行查找动作
using temporary

表示使用了临时表存储中间结果。
- MySQL在对查询结果order by和group by时使用临时表
- 临时表可以是内存临时表和磁盘临时表，执行计划中看不出来，需要查看status变量，used_tmp_table，used_tmp_disk_table才能看出来。
- distinct，在select部分使用了distinct关键字（索引字段）
using where
- 表示存储引擎返回的记录并不是所有的都满足查询条件，需要在server层进行过滤
- 查询条件中分为限制条件和检查条件，5.6之前，存储引擎只能根据限制条件扫描数据并返回，然后server层根据检查条件进行过滤再返回真正符合查询的数据。5.6.x之后支持ICP特性，可以把检查条件也下推到存储引擎层，不符合检查条件和限制条件的数据，直接不读取，这样就大大减少了存储引擎扫描的记录数量。extra列显示using index condition。

使用场景

需要索引

主键自动建立唯一索引。
频繁作为查询条件的字段应该创建索引。
多表关联中，关联字段应该创建索引，on两边都应该创建索引。
查询排序的字段因该创建索引。
覆盖索引不需要回表，视情况使用。
统计或分组字段，应该创建索引。

不需要索引

表记录较少，不需要创建索引（索引的创建也有开销）。
频繁更新的字段不需要创建索引（需维护索引）。
查询使用频率不高的字段不需要创建索引。

揭开 mysql 神秘的面纱（二）——索引篇

索引

分类

单列索引

普通索引

唯一索引

主键索引

组合索引

全文索引

使用

创建索引

删除索引

查看索引

原理

索引的存储结构

存储结构

B树和B+树

非聚集索引（myisam）

主键索引

辅助索引

聚集索引（innodb）

主键索引

辅助索引

失效

执行计划

参数说明

id

select_type

table

type

possible_keys

key

key_len

ref

rows

Extra

使用场景

需要索引

不需要索引