Unicode和UTF-8的区别

79 阅读1分钟

1.Unicode是一种字符集,它定义了每个字符对应的唯一编号,这些编号被称为码点(code point)。UTF-8是一种编码方式,它把Unicode中的码点编码成字节序列,以便在存储和传输时使用

2.UTF-8为边长字节的编码方式,因为每个字符的使用频率不同,令使用频率大的字符编码为较短的字符,令使用频率小的字符编码为较长的字符,这样可以节约存储。(可以先了解下哈夫曼树)

例如:'中'---4E2D(unicode编码后的码点)---11100100 10111000 10101101(UTF-8编码后的字节序列)