1、简介
浏览器需要知道文字的编码方法才能将网页中的文字还原出来,一般服务器向浏览器发送HTML文件时,会通过HTTP头信息声明网页的编码方式:Content-Type:text/html;charset=UTF-8,这段代码表示:HTTP头信息的Content-Type字段先声明,服务器发送的数据类型是text/html,并声明网页的文字编码是UTF-8。
同时网页内部用meta标签再次声明网页的编码<meta charset="UTF-8"。
2、字符的数字表示法
网页常用编码方式为UTF-8,此编码是Unicode字符集的一种表达方式,Unicode字符集目前已收录十多万个字符,其中每一个字符有一个Unicode号码,称为码点(code point)。
- 有些Unicode字符无打印形式,比如换行符
- 注意小于号(<)和大于号(>)防止被解释成标签
- 没有一种键盘有办法输入世界上所有符号
- 网页不允许混合使用多种编码
HTML为了解决上述问题,使用Unicode码点表示字符,浏览器将码点转成对应字符,码点表示法为&#N(十进制,N代表码点),比如字符a可以写成a,浏览器会自动将a转换成a。
<p>a</p><p>a</p>
3、字符的实体表示法
数字表示法较难记忆,HTML为特殊字符规定了容易记忆的名字,通过名字来表示,称为实体表示法(entity)。字符的数字表示法和实体表示法,都可以表示正常情况下无法输入的字符,逃脱了浏览器的限制,因此英语里称为“escape”,中文翻译为“字符的转义”。 <:<>:>空格:
-
<:< -
>:> -
":" -
':' -
&:& -
©:© -
#:# -
§:§ -
¥:¥ -
$:$ -
£:£ -
¢:¢ -
%:% -
*:$ast; -
@:@ -
^:^ -
±:± -
空格: