UTF-8 与 UTF-8MB4 的区别1、UTF-8 （Unicode）我们先谈谈UTF-8,最早只有127个字符被

1、UTF-8 （Unicode）

我们先谈谈UTF-8,最早只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，但是要处理中文显然一个字节是不够的，至少需要两个字节，而且还不能和ASCII编码冲突，所以，中国制定了GB2312编码，用来把中文编进去。你可以想得到的是，全世界有上百种语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里，各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。

因此，Unicode应运而生。Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。现代操作系统和大多数编程语言都直接支持Unicode。

所以在UTF-8编码中，一个英文字符占用一个字节的存储空间，一个中文（含繁体）占用三个字节的存储空间。

目前基本上可见字符集都只需要三个字节，包含了所有字符，但是目前问题出在了unicode6系列编码上，它们需要4个字节，这部分就是有名的emoji。所以，你只要不是特种编码还是unicode，且不存emoji，保证不出问题。

另外在此处，我有一点需要补充的是：

MySQL数据库的 “utf8”并不是真正概念里的 UTF-8，原因上面是一点，还有一点是MySQL中的“utf8”编码只支持最大3字节每字符。真正的大家正在使用的UTF-8编码是应该能支持4字节每个字符。

但其实MYSQL的开发者，并没有修饰这个bug，而是推出了新的字符集，就是UTF-8MB4字符编码。👇

2、UTF-8MB4

UTF8MB4：MySQL在5.5.3之后增加了utf8mb4的编码，mb4就是most bytes 4的意思，专门用来兼容四字节的unicode。因此可以用来存储emoji表情。

从8.0后，MySQL也将会在某个版本中开始使用UTF-8MB4作为默认的字符编码。

所以简单说即是：UTF-8MB4才是MySQL中真正的UTF-8编码。

然后了解到，对于 CHAR 类型数据，使用utf8mb4 存储会多消耗一些空间。

那么utf8mb4比utf8多了什么的呢?

多了emoji编码支持.

如果实际用途上来看,可以给要用到emoji的库或者说表,设置utf8mb4.

比如评论要支持emoji可以用到.

建议普通表使用utf8 如果这个表需要支持emoji就使用utf8mb4

新建mysql库或者表的时候还有一个排序规则

utf8_unicode_ci比较准确，utf8_general_ci速度比较快。通常情况下 utf8_general_ci的准确性就够我们用的了，在我看过很多程序源码后，发现它们大多数也用的是utf8_general_ci，所以新建数据库时一般选用utf8_general_ci就可以了如果是utf8mb4那么对应的就是 utf8mb4_general_ci utf8mb4_unicode_ci