HTML字符编码

944 阅读1分钟

1、简介

浏览器需要知道文字的编码方法才能将网页中的文字还原出来,一般服务器向浏览器发送HTML文件时,会通过HTTP头信息声明网页的编码方式:Content-Type:text/html;charset=UTF-8,这段代码表示:HTTP头信息的Content-Type字段先声明,服务器发送的数据类型是text/html,并声明网页的文字编码是UTF-8。 同时网页内部用meta标签再次声明网页的编码<meta charset="UTF-8"

2、字符的数字表示法

网页常用编码方式为UTF-8,此编码是Unicode字符集的一种表达方式,Unicode字符集目前已收录十多万个字符,其中每一个字符有一个Unicode号码,称为码点(code point)。

  1. 有些Unicode字符无打印形式,比如换行符
  2. 注意小于号(<)和大于号(>)防止被解释成标签
  3. 没有一种键盘有办法输入世界上所有符号
  4. 网页不允许混合使用多种编码 HTML为了解决上述问题,使用Unicode码点表示字符,浏览器将码点转成对应字符,码点表示法为&#N(十进制,N代表码点),比如字符a可以写成&#97,浏览器会自动将&#97转换成a。 <p>a</p> <p>&#97</p>

3、字符的实体表示法

数字表示法较难记忆,HTML为特殊字符规定了容易记忆的名字,通过名字来表示,称为实体表示法(entity)。字符的数字表示法和实体表示法,都可以表示正常情况下无法输入的字符,逃脱了浏览器的限制,因此英语里称为“escape”,中文翻译为“字符的转义”。 <:<>:>空格: 

  • <&lt;

  • >&gt;

  • "&quot;

  • '&apos;

  • & &

  • ©&copy;

  • #&num;

  • §&sect;

  • ¥&yen;

  • $&dollar;

  • £&pound;

  • ¢&cent;

  • %&percnt;

  • *$ast;

  • @&commat;

  • ^&Hat;

  • ±&plusmn;

  • 空格:&nbsp;