字符编码学习:Unicode和UTF-8

179 阅读1分钟

Unicode是字符集(Character Set, Charset)

UTF-8是字符编码(character encoding)

字符集(Character Set, Charset)

字符的集合,字符是各种符号的总称,包括字母、数字、标点符号、图形符号等。

字符编码(character encoding)

In computing, data storage, and data transmission, character encoding is used to represent a repertoire of characters by some kind of encoding system that assigns a number to each character for digital representation.

字符编码模型(Character Encoding Model)

传统字符编码模型

ASCII编码中,字符集和字符编码经常混用,字符集中字符的编号就是最终的字符编码。

现代字符编码模型

现代字符编码模型区分字符集和字符编码。

其核心思想是创建一个能够用不同方式来编码的通用字符集。

现代字符编码共分为5个层次,分别是:

抽象字符表(ACR, Abstract Character Repertoire)

一个编码系统支持的所有抽象字符集合,ACR是无序的。

编号字符集(CCS, Coded Character Set)

字符集中每一个字符都对应唯一的编号

字符编码方式(CEF, Character Encoding Format)

将字符编号编码为逻辑上的码元序列(逻辑字符编码)

字符编码模式(CES, Character Encoding Schema)

将逻辑码元序列映射为字节序列(物理字节编码)

传输编码语法(TES, Transfer Encoding Syntax)

适应性编码处理

参考链接:

foofish.net/unicode_utf…

www.cnblogs.com/benbenalin/…

en.wikipedia.org/wiki/Charac…