字符集

86 阅读1分钟

计算机的存储规则【GBK】

汉字

汉字结果
查询GBK >>>10111010 10111010

存储规则

  • 汉字两个字节存储
  • 高位字节二进制一定以1开头,转成十进制之后是一个负数

英文

存储规则 英文一个字节存储,兼容ASCII,二进制前面补0

Unicode

研发方:统一码联盟 Unicode组织

总部位置:美国加州

研发时间:1990年

发布时间: 1994年发布1.0版本,期间不断添加新的文字 最新版本是2022年9月13日发布的15.0版本

联盟组成:世界各地主要的电脑制造商、软件开发商、数据库开发商、政府部门、研究机构、国际机构及个人组成

存储规则

标题
ASCII0XXXXXXX
叙利亚文110XXXXX 10XXXXXX
中日韩1110XXXX 10XXXXXX 10XXXXXX
其他语言11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

UTF-8(unicode transfer format) 1~4个字节进行保存的

UTF-16(unicode transfer format) 2~4个字节进行保存的

UTF-32(unicode transfer format) 固定4个字节进行保存的

UTF-8 编码格式

一个英文占一个字节,二进制第一位是0,第一个字节转成十进制是正数 一个中文占三个字节,二进制第一位是1,第一个字节转成十进制是负数