Unicode是字符集(Character Set, Charset)
UTF-8是字符编码(character encoding)
字符集(Character Set, Charset)
字符的集合,字符是各种符号的总称,包括字母、数字、标点符号、图形符号等。
字符编码(character encoding)
In computing, data storage, and data transmission, character encoding is used to represent a repertoire of characters by some kind of encoding system that assigns a number to each character for digital representation.
字符编码模型(Character Encoding Model)
传统字符编码模型
ASCII编码中,字符集和字符编码经常混用,字符集中字符的编号就是最终的字符编码。
现代字符编码模型
现代字符编码模型区分字符集和字符编码。
其核心思想是创建一个能够用不同方式来编码的通用字符集。
现代字符编码共分为5个层次,分别是:
抽象字符表(ACR, Abstract Character Repertoire)
一个编码系统支持的所有抽象字符集合,ACR是无序的。
编号字符集(CCS, Coded Character Set)
字符集中每一个字符都对应唯一的编号
字符编码方式(CEF, Character Encoding Format)
将字符编号编码为逻辑上的码元序列(逻辑字符编码)
字符编码模式(CES, Character Encoding Schema)
将逻辑码元序列映射为字节序列(物理字节编码)
传输编码语法(TES, Transfer Encoding Syntax)
适应性编码处理