用MySQL的朋友们请不要使用"utf8"，请使用"utf8mb4"我用的是 UTF-8 编码的客户端，服务器也是 UT

原文

用MySQL的朋友们请不要使用"utf8"，请使用"utf8mb4"

今天我试图把UTF-8编码的字符串插入使用“utf8”编码的MariaDB数据库中，Rails抛出一个古怪的异常:

Incorrect string value: ‘\xF0\x9F\x98\x83 <…’ for column ‘summary’ at row 1

我用的是 UTF-8 编码的客户端，服务器也是 UTF-8 编码的，数据库也是，就连要保存的这个字符串 "😃 ..." 也是合法的 UTF-8。

问题的症结在于，MySQL 的 "utf8" 实际上不是真正的 UTF-8。

MySQL中的“utf8”编码

MySQL 中的 “utf8” 编码每个字符最大只支持3字节。真正的大家正在使用的 UTF-8 编码，每个字符最大支持4字节。

MySQL 一直没有修复这个 bug，他们在 2010 年发布了一个叫作 "utf8mb4" 的字符集，绕过了这个问题。

当然，他们并没有对新的字符集广而告之（可能是因为这个 bug 让他们觉得很尴尬），以致于现在网络上仍然在建议开发者使用 "utf8"，但这些建议都是错误的。

简单的说:

MySQL 中的 “utf8mb4” 才是真正意义上的 “UTF-8”。

MySQL 中的 “utf8” 是个 “特殊的字符编码”。这种编码很多 Unicode 字符保存不了。

我强烈建议 MySQL 和 MariaDB 用户使用 “utf8mb4” 而不是 “utf8”。

什么是编码？什么是 UTF-8？

我们都知道，计算机使用 0 和 1 来存储文本。比如字符 "C",被存成"01000011"，那么计算机在显示这个字符时需要经过两个步骤：

计算机读取 "01000011"，得到数字 67，因为 67 被编码成 "01000011"。
计算机在 Unicode 字符集中查找 67，找到了 "C"。

同样的：

我的电脑将 "C" 映射成 Unicode 字符集中的 67。
我的电脑将 67 编码成 "01000011"，并发送给 Web 服务器。

几乎所有的网络应用都使用了 Unicode 字符集，因为没有理由使用其他字符集。Unicode 字符集包含了上百万个字符。最简单的编码是 UTF-32，每个字符使用 32 位。这样做最简单，但问题是，这样太浪费空间了。

UTF-8 可以节省空间，在 UTF-8 中，字符 "C" 只需要 8 位，一些不常用的字符，比如 “💩” 需要 32 位。其他的字符可能使用 16 位或 24 位。一篇类似本文这样的文章，如果使用 UTF-8 编码，占用的空间只有 UTF-32 的四分之一左右。

MySQL 的 "utf8" 字符集与其他程序不兼容，它所谓的“💩”，可能真的是一坨......

一点关于MySQL的历史

为什么MySQL开发了一个奇怪的“utf8”。我们或许可以从提交日志中寻找答案。

MySQL 从 4.1 版本开始支持 UTF-8，也就是 2003 年，而今天使用的 UTF-8 标准（RFC 3629）是随后才出现的。旧版的 UTF-8 标准（RFC 2279）最多支持每个字符 6 个字节。

2002 年 3 月 28 日，MySQL 开发者在第一个 MySQL 4.1 预览版中使用了 RFC 2279，然后在9月出现了一个神秘的代码调整——“UTF8 now works with up to3 byte sequences only.”（UTF8 现在最多只支持 3 个字节序列）

是谁提交了这次更新？为什么？我不知道在2003年9月前后的邮件列表中没有任何内容可以解释这一更改。

2003年11月 RFC 2279 被宣布作废，RFC 3629 取代 RFC 2279 成为 UTF-8 最新标准。

不过我可以试着猜测一下。

2002 年，MySQL 做出了一个决定：如果用户可以保证数据表的每一行都使用相同的字节数，那么 MySQL就可以在性能方面来一个大提升。为此，用户需要将文本列定义为 "CHAR"，每个"CHAR"列总是拥有相同数量的字符。如果插入的字符少于定义的数量，MySQL就会在后面填充空格，如果插入的字符超过了定义的数量，后面超出部分会被截断。

MySQL 开发者在最开始尝试 UTF-8 时使用了每个字符 6 个字节，CHAR(1) 使用 6 个字节，CHAR(2) 使用 12 个字节，并以此类推，按照当时的 RFC 2279 规范,这样做是正确的，可惜这一版本一直没有发布。

我猜测 MySQL 开发人员打破了他们的 “utf8” 编码规范，可能是想帮助那些希望在空间和速度上双赢的用户，但他们搞砸，那些想要更快性能，更小空间的用户，得到的反而是比他们曾经使用版本更大更慢的实现，而那些想要正确存储“utf8”的人得到的是个“💩”都存储不了的实现。

MySQL发布了这个错误的版本后，再也没有修复它：因为那样很多使用者将被迫重建他们的数据库。MySQL最终在2010年更新了一个以“utf8mb4”命名的UTF-8实现。

为什么这件事情会让人如此抓狂

因为这个问题，我整整抓狂了一个礼拜。我被 "utf8" 愚弄了，花了很多时间才找到这个 bug。但我一定不是唯一的一个，网络上几乎所有的文章都把 "utf8" 当成是真正的 UTF-8。

"utf8" 只能算是个专有的字符集，它给我们带来了新问题，却一直没有得到解决。

总结如果你在使用 MySQL 或 MariaDB，不要用 "utf8" 编码，改用 "utf8mb4"。 mathiasbynens.be/notes/mysql… 提供了一个指南用于将现有数据库的字符编码从"utf8" 转成"utf8mb4"。