分页查询优化

select * from employee limit 10000,10 对于上面的额sql语句，执行过程底层从1开始到10000数据进行扫描分页查询，雄安率比较低 select * from employees where id > 90000 limit 5; 优化：对于主键自增连续的，可以按照主键去查询从第90001开始的五行数据,没有指定排序order by的化默认是按照主键排序。范围限定之后再去取值排序前提是主键自增-----实际应用过程中条件比较

第一条sql语句，没有用到索引，而且用到文件排序。第二条sql语句，用到了索引而且没有用到文件排序，效率会高很多

Join关联优化查询

小表驱动大表执行过程实际上是先执行小表中的结果，然后再关联大表中的数据

EXPLAIN SELECT * FROM t1 inner join t2 on t1.a = t2.a;

对于上面的sql语句小表t1是100条数据，大表t2是10000条数据，t1表走全表扫描，t2表走的是索引，由于t1表表中的数据相当小，扫描很快，因此在驱动t2表中的记录的时候很快，相当于直接关联通过t1表直接查询

嵌套循环链接算法

从一张表中查询所有的记录，再去另一张表中用索引关联查询

基于块的嵌套循环连接

把驱动表的数据读入到join_buffer中，然后扫描被驱动表，把被驱动表每一行取出来跟join_buffer中的数据进行对比这种情况下，假如小表t1中有100条数据，大表中有10000条数据，过滤完小表中的100条数据之后放入join_buffer中，之后再用大表中10000条数据根据join_buffer中的结果进行对比，不过极端情况下，可能出现对比10000*100的情况。 join_buffer默认256k---数据量大的话分段存储

内存计算跟磁盘扫描是差了数量级的，内存计算会快的多，在没有索引的情况下BNL这种算法更快一点，有索引的情况下用NLJ算法

关联字段，尽量的加索引特别是被驱动表，一般选择小表做驱动表，大表被驱动表关联的时候走索引先执行的表尽量是小表，后执行的表尽量是大表

对于关联查询的优化

关联字段加索引小表驱动大表--大表走索引，小表走不走索引无所谓定义的小表还是大表是定义的关联的结果集，并不是根据数据量来的

in和exist

优化原则，小表驱动大表--小的结果集驱动大的结果集 in :当B表的数据集小于A表的数据集的时候，in优于exist

exist：当A表的数据集小于B表的数据集的时候，exist优于in

Count()查询优化

上面4条sql语句执行效率其实差不多

字段有索引：count(*) ~~ count(1)>count(字段) >count(主键) 在字段有索引的情况下，count字段统计走二级索引，二级索引存储数据比主键索引少，所以count(字段)>count(主键)
- 字段无索引：count(*) ~~ count(1)>count(主键) >count(字段) //字段没有索引count（字段）走不了索引，count(主键 id)可以走主键索引

常见的优化方法

对于MyISam存储引擎 select count(*) from test_myisam; 在MyiSAM存储引擎中，数据集会被mysql存储在磁盘上维护好，查询不需要计算，但是Innodb是不会维护count(*)的（因为有MVCC机制--不同的事务读取出来的结果集不一样），查询count需要实时计算
show table status

如果是InnoDB的表想要快速的查找结果集，如果对总结果集要求不是很高的话，可以使用 show table status 'employees';. 但是如果对结果集要求比较高的话，可以把总数维护在redis中，在redis中维护一个原子计数器，在数据库中insert一条语句，后缀值+1，删除一条记录—1 不过缓存和数据库数据很难达到一致，缓存数据库要实现一致，实现起来代价非常高

对于分布式事务不可能100%达到一致

增加数据库技术表，把总数维护在数据库里面，利用数据库的本地事务来实现数据的一致性，基本上可以达到100%数据一致

插入或者删除表数据行的时候维护计数表，让他们在同一个事务里面操作

阿里巴巴手册

对于单表行数超过500万行或者单表荣来给你超过2GB，才推荐使用分库分表

如果预计三年后的数据量根本达不到这个级别，不要在创建表时分库分表

不用一开始创建数据库的时候就考虑分库分表。上面只是一个推荐，根据推荐效率可以达到最优

索引规约

业务上具有唯一特性的字段，即使是组合字段，也必须建成唯一索引

从数据库层面做约束，从代码层面做约束太困难，不能保证每一个程序员都能做到维护
对于损耗来说，数据的绝对一致性更重要

超过三个表禁止join。需要join的字段，数据类型保持绝对的一致；多表关联查询时，保证被关联的字段需要有索引

表关联优化很难，对于联表优化根据Explain，大表一定要走索引；就算优化得很好，每张表参与优化的数据量很大，可能造成笛卡尔积等问题.....
能用java实现优化尽量用Java实现，因为MySQL是不容易扩展到的，但是对于Java来说可以横向扩容、做集群、做分布式

oracle扩展性不如Mysql

like %优化，走覆盖索引或者使用搜索引擎

4. 推荐：in操作能避免则避免，实在避免不了，需要仔细的评估in后面的集合元素数量，控制在1000以内。in操作跟表事务数据量是有关的，数据表记录少的话走不走索引的无所谓，数据记录大的话按照上面推荐 5. 因国际化需要，所有的字符存储与表示，均采用utf8字符集（一个字符3个字节），如果需要存储表情（占4个字节），那么选择utf8mb4来进行存储

Mysql数据类型选择

mysql中选择正确的数据类型，对于性能至关重要，一般遵循下面两步：

确定合适的大类型：数字，字符串，时间，二进制
确定具体的类型：有无符号，取值范围，变长还是定长等

在Mysql数据类型设置方面尽量选择更小的数据类型，因为他们通常有更好的性能，话费更少的数据资源。并且尽量把字段定义为not null，避免使用null

1、数值类型


类型	大小	范围（有符号）	范围（无符号）	用途
TINYINT	1 字节	(-128, 127)	(0, 255)	小整数值
SMALLINT	2 字节	(-32 768, 32 767)	(0, 65 535)	大整数值
MEDIUMINT	3 字节	(-8 388 608, 8 388 607)	(0, 16 777 215)	大整数值
INT或INTEGER	4 字节	(-2 147 483 648, 2 147 483 647)	(0, 4 294 967 295)	大整数值
BIGINT	8 字节	(-9 233 372 036 854 775 808, 9 223 372 036 854 775 807)	(0, 18 446 744 073 709 551 615)	极大整数值
FLOAT	4 字节	(-3.402 823 466 E+38, 1.175 494 351 E-38)，0，(1.175 494 351 E-38，3.402 823 466 351 E+38)	0, (1.175 494 351 E-38, 3.402 823 466 E+38)	单精度浮点数值
DOUBLE	8 字节	(1.797 693 134 862 315 7 E+308, 2.225 073 858 507 201 4 E-308), 0, (2.225 073 858 507 201 4 E-308, 1.797 693 134 862 315 7 E+308)	0, (2.225 073 858 507 201 4 E-308, 1.797 693 134 862 315 7 E+308)	双精度浮点数值
DECIMAL	对DECIMAL(M,D) ，如果M>D，为M+2否则为D+2	依赖于M和D的值	依赖于M和D的值	小数值

优化建议

如果整形数据没有负数，如ID号，建议指定为UNSIGNED无符号类型，容量可以扩大一倍。
建议使用TINYINT代替ENUM、BITENUM、SET。
避免使用整数的显示宽度(参看文档最后)，也就是说，不要用INT(10)类似的方法指定字段显示宽度，直接用INT。
DECIMAL最适合保存准确度要求高，而且用于计算的数据，比如价格。但是在使用DECIMAL类型的时候，注意长度设置。
建议使用整形类型来运算和存储实数，方法是，实数乘以相应的倍数后再操作。
整数通常是最佳的数据类型，因为它速度快，并且能使用AUTO_INCREMENT。

2、日期和时间


类型	大小(字节)	范围	格式	用途
DATE	3	1000-01-01 到 9999-12-31	YYYY-MM-DD	日期值
TIME	3	'-838:59:59' 到 '838:59:59'	HH:MM:SS	时间值或持续时间
YEAR	1	1901 到 2155	YYYY	年份值
DATETIME	8	1000-01-01 00:00:00 到 9999-12-31 23:59:59	YYYY-MM-DD HH:MM:SS	混合日期和时间值
TIMESTAMP	4	1970-01-01 00:00:00 到 2038-01-19 03:14:07	YYYYMMDDhhmmss	混合日期和时间值，时间戳

优化建议

MySQL能存储的最小时间粒度为秒。
建议用DATE数据类型来保存日期。MySQL中默认的日期格式是yyyy-mm-dd。
用MySQL的内建类型DATE、TIME、DATETIME来存储时间，而不是使用字符串。
当数据格式为TIMESTAMP和DATETIME时，可以用CURRENT_TIMESTAMP作为默认（MySQL5.6以后），MySQL会自动返回记录插入的确切时间。
TIMESTAMP是UTC时间戳，与时区相关。
DATETIME的存储格式是一个YYYYMMDD HH:MM:SS的整数，与时区无关，你存了什么，读出来就是什么。
除非有特殊需求，一般的公司建议使用TIMESTAMP，它比DATETIME更节约空间，但是像阿里这样的公司一般会用DATETIME，因为不用考虑TIMESTAMP将来的时间上限问题。
有时人们把Unix的时间戳保存为整数值，但是这通常没有任何好处，这种格式处理起来不太方便，我们并不推荐它。

3、字符串


类型	大小	用途
CHAR	0-255字节	定长字符串，char(n)当插入的字符数不足n时(n代表字符数)，插入空格进行补充保存。在进行检索时，尾部的空格会被去掉。
VARCHAR	0-65535 字节	变长字符串，varchar(n)中的n代表最大字符数，插入的字符数不足n时不会补充空格
TINYBLOB	0-255字节	不超过 255 个字符的二进制字符串
TINYTEXT	0-255字节	短文本字符串
BLOB	0-65 535字节	二进制形式的长文本数据
TEXT	0-65 535字节	长文本数据
MEDIUMBLOB	0-16 777 215字节	二进制形式的中等长度文本数据
MEDIUMTEXT	0-16 777 215字节	中等长度文本数据
LONGBLOB	0-4 294 967 295字节	二进制形式的极大文本数据
LONGTEXT	0-4 294 967 295字节	极大文本数据

优化建议

字符串的长度相差较大用VARCHAR；字符串短，且所有值都接近一个长度用CHAR。
CHAR和VARCHAR适用于包括人名、邮政编码、电话号码和不超过255个字符长度的任意字母数字组合。那些要用来计算的数字不要用VARCHAR类型保存，因为可能会导致一些与计算相关的问题。换句话说，可能影响到计算的准确性和完整性。
尽量少用BLOB和TEXT，如果实在要用可以考虑将BLOB和TEXT字段单独存一张表，用id关联。
BLOB系列存储二进制字符串，与字符集无关。TEXT系列存储非二进制字符串，与字符集相关。
BLOB和TEXT都不能有默认值。

PS：INT显示宽度

我们经常会使用命令来创建数据表，而且同时会指定一个长度，如下。但是，这里的长度并非是TINYINT类型存储的最大长度，而是显示的最大长度。

CREATE TABLE user( id TINYINT(2) UNSIGNED );

这里表示user表的id字段的类型是TINYINT，可以存储的最大数值是255。所以，在存储数据时，如果存入值小于等于255，如200，虽然超过2位，但是没有超出TINYINT类型长度，所以可以正常保存；如果存入值大于255，如500，那么MySQL会自动保存为TINYINT类型的最大值255。

在查询数据时，不管查询结果为何值，都按实际输出。这里TINYINT(2)中2的作用就是，当需要在查询结果前填充0时，命令中加上ZEROFILL就可以实现，如：

id TINYINT(2) UNSIGNED ZEROFILL

这样，查询结果如果是5，那输出就是05。如果指定TINYINT(5)，那输出就是00005，其实实际存储的值还是5，而且存储的数据不会超过255，只是MySQL输出数据时在前面填充了0。

换句话说，在MySQL命令中，字段的类型长度TINYINT(2)、INT(11)不会影响数据的插入，只会在使用ZEROFILL时有用，让查询结果前填充0。

Mysql索引优化二

分页查询优化

Join关联优化查询

嵌套循环链接算法

基于块的嵌套循环连接

对于关联查询的优化

in和exist

Count()查询优化

常见的优化方法

阿里巴巴手册

索引规约

Mysql数据类型选择