深入理解ES6 ---- 正则扩展

524 阅读2分钟

u修饰符

es5只能识别utf-16基本面上的二字节字符,而对于代理对(unicode码大于u+FFFF)的四字节字符,会解析为两个二进制字符。详细了解javascript的编码相关

(1) unicode属性

布尔值,表示是否使用u修饰符

(2) 正则匹配

使用u修饰符,正则能够识别4字节的utf-16编码字符为单个字符,即能够从编码单元模式转化为字符模式

  • 不使用u操作符,正则把\uD83D\uDC2A视为两个2字节字符
/^\uD83D/.test('\uD83D\uDC2A') // true
  • 使用u修饰符后,成功识别\uD83D\uDC2A为四字节单字符,匹配失败
/^\uD83D/u.test('\uD83D\uDC2A') // false

(3) .任意单字符匹配

.表示除了换行符以外的任意单个字符,但不能识别4字节字符,必须使用u修饰符

var s = '𠮷';
/^.$/.test(s) // false
/^.$/u.test(s) // true

(4) unicode表示法

/\u0061/.test('a')true,但当字符unicode码超出u+ffff时,比如/\u20bb7/正则就不能正常匹配𠮷了,可以使用u修饰符搭配上大括号就能识别了。

// 不能识别代理对的字符
/\u20bb7/.test('𠮷') // false
// 使用u修饰符即可
/\u{20bb7}/u.test('𠮷')  // true   

y修饰符

(1) sticky属性

布尔值。表示正则是否使用y修饰符

(2) 多次匹配规则

使用y修饰符,正则可以对同一个字符串进行多次匹配,正则会修改它的lastIndex属性(初始值为0)为匹配内容的下一个字符的位置索引,下次匹配会从字符串lastIndex处开始匹配,直到匹配失败,lastIndex设置为0

(3) 只有在reg.execreg.test等正则方法中,才会有粘连效果

(4) 与g修饰符的区别

gy修饰符都可以多次匹配同一字符串。区别在于 y修饰符等同于每次匹配时加上了 ^,从开头处匹配;而g修饰符只是正常从lastIndex开始匹配;

###正则表达式的复制

var reg = /abc/i
reg2 = new RegExp(reg, 'g')

上一段代码,在es5环境中会报错;在es6环境中,会成功把i修饰符替换为g

s修饰符

(1) dotAll属性

布尔值。表示正则是否使用s修饰符

(2) 可以成功匹配行终止符

'.'代表任意单个字符,但有两个例外:

  • 一个是四个字节的 UTF-16 字符,这个可以用u修饰符解决
  • 另一个是行终止符
    • U+000A 换行符(\n)
    • U+000D 回车符(\r)
    • U+2028 行分隔符(line separator)
    • U+2029 段分隔符(paragraph separator)

使用s修饰符可以成功匹配行终止符

/foo.bar/.test('foo\nbar')  // false
/foo.bar/s.test('foo\nbar')  // true