URL转义须知

200 阅读1分钟

问题

跳转url中需携带用户自定义参数,参数中出现#,导致url参数解析错误。如:www.baidu.com?wd=aa#bb,wd参数期望是aa#bb,只解析到aa。

问题定位

url参数中存在特殊字符,#被解析成锚点,导致出错。

解决

对参数进行encodeURICompont转义,提取时采用decodeURIComponent获取正确值。

原理

Url中只允许包含以下四种:

  1. 英文字母(a-zA-Z)
  2. 数字(0-9)
  3. -_.~ 4个特殊字符
  4. 所有保留字符,RFC3986中指定了以下字符为保留字符(英文字符):
  • :, 冒号
  • /, 正斜杠
  • ?, 问号
  • #, 井号
  • [, 左中括号
  • ], 右中括号
  • @, 地址符号
  • !, 感叹号
  • $, 美元符号
  • &, 与
  • ', 单引号
  • (, 左小括号
  • ), 右小括号
  • *, 星号
  • +, 加号
  • ,, 逗号
  • ;, 分号
  • =, 等号

不安全字符:有一些字符,当他们直接放在Url中的时候,可能会引起解析程序的歧义。这些字符被视为不安全字符,原因有很多。

  • 空格:Url在传输的过程,或者用户在排版的过程,或者文本处理程序在处理Url的过程,都有可能引入无关紧要的空格,或者将那些有意义的空格给去掉。
  • 引号以及<>:引号和尖括号通常用于在普通文本中起到分隔Url的作用
  • #:通常用于表示书签或者锚点
  • %:百分号本身用作对不安全字符进行编码时使用的特殊字符,因此本身需要编码
  • {}|^[]`~:某一些网关或者传输代理会篡改这些字符

总结

  1. url,只能出现普通英文字符和数字,特殊字符$-_.+!*'()还有保留字符,其他字符均需要经过编码之后才能出现在Url中。可采用encodeURI处理
  2. url中的参数,只能出现普通英文字符和数字,特殊字符$-_.+!*'(),其他字符均需要经过编码之后才能出现在Url中。可采用encodeURIComponent处理