MySQL大小写不敏感问题 - DaemonCoder

377 阅读2分钟
原文链接: daemoncoder.com

MySQL默认是不区分列的大小写的,本文会详细解释这个问题和解决办法。

问题

先明确下问题,现在有一个表t3,里面有两条数据:

mysql> select * from t3;
+------+------+
| a | b |
+------+------+
| aaa | bbb |
| AAA | BBB |
+------+------+
2 rows in set (0.00 sec)

查询b='bbb'的记录:

mysql> select * from t3 where b='bbb';
+------+------+
| a | b |
+------+------+
| aaa | bbb |
| AAA | BBB |
+------+------+
2 rows in set (0.00 sec)

可以看到查询条件中是小写的bbb,结果却查到了大写的'BBB',看似有些不可思议,这不是MySQL的bug,原因就是我们现在要说的MySQL大小写默认不敏感问题。


再换一个a列再试一下:

mysql> select * from t3 where a='aaa';
+------+------+
| a | b |
+------+------+
| aaa | bbb |
+------+------+
1 row in set (0.00 sec)

呃,用a='aaa'查询却没有查出'AAA'的数据,刚刚还一本正经的说大小写不敏感,是不是翻车了。其实是a列在创建时有自己的单独设置,看下表的定义就清楚了:

mysql> show create table t3\G
*************************** 1. row ***************************
       Table: t3
Create Table: CREATE TABLE `t3` (
  `a` varchar(20) CHARACTER SET utf8 COLLATE utf8_bin DEFAULT NULL,
  `b` varchar(20) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8
1 row in set (0.00 sec)

a列有个校验规则为collate utf8_bin的设置,这个就是在a列上查询可以区分大小写的原因。


字符集与校验规则

以上面图中看到的CHARACTER SET utf8 COLLATE utf8_bin为例,utf8是字符集,utf8_bin是对应的校验规则。

字符集是表示字符的底层编码,在utf8字符集中,字符'A'用ascii码65表示,'a'为97。

校验规则指的是,在字符集内做比较时一种规则。如比较两个字符的大小时按其ascii码的大小比较,a>A。假设有另外一种比较方式,按ascii码值的相反数比较,则a<A。假如还有一种比较方式会先把大写转成小写再比较大小,则a=A。utf8字符集默认的校验规则是utf8_general_ci,其中ci就是case insensitive,是不区分大小写的,utf8_bin就是按utf8编码的二进制值比较大小,A和a的ascii分别是65和97,不相等,所以utf8_bin是区分大小写的。

可以通过show collation命令查看有哪些校验规则:

mysql> show collation like 'utf8%';
+--------------------------+---------+-----+---------+----------+---------+
| Collation | Charset | Id | Default | Compiled | Sortlen |
+--------------------------+---------+-----+---------+----------+---------+
| utf8_general_ci | utf8 | 33 | Yes | Yes | 1 |
| utf8_bin | utf8 | 83 | | Yes | 1 |

通过show character set查看有哪些字符集:

mysql> show character set like 'utf8%';
+---------+---------------+--------------------+--------+
| Charset | Description | Default collation | Maxlen |
+---------+---------------+--------------------+--------+
| utf8 | UTF-8 Unicode | utf8_general_ci | 3 |
| utf8mb4 | UTF-8 Unicode | utf8mb4_general_ci | 4 |
+---------+---------------+--------------------+--------+
2 rows in set (0.00 sec)

可以看到utf8的默认校验规则是utf8general_ci,想要设置在某一列上查询区分大小写,可能通过对列指定collate utf8_bin来解决。