VARCHAR 最多存多少个字符?|mysql系列(3)

1,600 阅读4分钟

前言

上篇《VARCHAR(M) 到底占用多少个字节?|mysql系列(2)》分享了VARCHAR(M) 占用多少个字节,那VARCHAR 最大能存多少个字符呢?以及了解这些对我们平时的开发工作中有什么帮助呢?那我们就要了解下存储引擎中是怎么来处理数据的。这里我们还是以InnoDB 为例。

InnoDB数据记录的结构

在《执行sql 语句时发生了什么?|mysql 系列(1)》一文中讲到,MySQL服务器上负责对表中数据的读取和落盘(即写入磁盘)工作是由存储引擎 完成的。InnoDB是一个将表中的数据存储到磁盘上的存储引擎 。这也是mysql 持久化的保证。插入的数据记录在磁盘上的存放方式被称为行格式或者记录格式。Mysql 目前有4种行格式:Redundant、Compact、Dynamic、Compressed.

其中:

  • Redundant 目前貌似很少使用了。

  • Version 5.6 默认使用 Compact

  • Version 5.7 默认使用Dynamic

可以用下面的语句来查看行格式。

我们以常用的Compact、Dynamic、Compressed 行格式为例。一条完整的记录其实可以被分为记录的额外信息和记录的真实数据两大部分 。Compact、Dynamic、Compressed行格式不同的地方在记录的真实数据部分。我们寻求答案的地方在记录的额外信息里面。

记录的额外信息

记录的额外信息包括:变长字段长度列表、NULL值列表和记录头信息。

变长字段长度列表: 比如VARCHAR(M)、VARBINARY(M)、各种TEXT类型,各种BLOB类型,把拥有这些数据类型的列称为变长字段 ;

变长字段占用的存储空间分为两部分:

  1. 真正的数据内容

  2. 占用的字节数。

真实数据内容是就是存的具体的值。那么对于占用的字节数该怎么表示呢?

如果列中的字符串都比较短,也就是说内容占用的字节数比较小,用1个字节就可以表示,但是如果变长列的内容占用的字节数比较多,可能就需要用2个字节来表示。具体用1个还是2个字节来表示真实数据占用的字节数。

对于VARCHAR(M)来说:

  • 表示能存储最多M个字符(注意是字符不是字节),所以这个类型能表示的字符串最多占用的字节数就是M×L,其中L=设置字符集 Maxlen 的值。

  • 假设它实际存储的字符串占用的字节数是Z。

varchar(100) 的字段 name.
假设我们的字符集用一个字节表示一个字符。
设置name的值 为douglea.
那么name 的实际存储的字节为7.

如果M×L <= 255,那么使用1个字节来表示真正字符串占用的字节数。

如果M×L > 255,则分为两种情况:

  • 如果Z <= 127,则用1个字节来表示真正字符串占用的字节数。

  • 如果Z > 127,则用2个字节来表示真正字符串占用的字节数。

所以,如果最多有2个字节来表示真正字符串占用的字节数的话。2个字节能表示最大的数为:16个2进制位 也就是2的16次方= 65535。如果VARCHAR(M)类型的列使用的不是ascii字符集,那M的最大取值取决于该字符集表示一个字符最多需要的字节数。

举个例子:

  • gbk字符集表示一个字符最多需要2个字节,那在该字符集下,M的最大取值就是32766(也就是:65532/2),也就是说最多能存储32766个字符;

  • utf8字符集表示一个字符最多需要3个字节,那在该字符集下,M的最大取值就是21844,就是说最多能存储21844(也就是:65532/3)个字符。

另外,varchar(100)  和varchar(1000) 都保存"douglea"字符串时,真实占用字节数是相同的,但是内存占用空间不同,是指定的大小。

以上就是今天的分享,欢迎拍砖!