正则表达式可能是 Javascript 中最不被重视，又最独特的存在，比如 /^\s*|\s*$/g，^-?\d*\.?\d+$ 这些看起来像火星文的表达式，你知道是什么意思吗？

正则表达式在文本处理方面非常强大，本篇文章带你全面了解正则表达式，读完之后你也能写几段火星文来练练手

模式

正则表达式用于匹配字符，给出一个模式，从而匹配到需要的字符串；在无规律的字符串中筛选出期望的结果

const regex = /ab/i
const str = 'cab'

regex.test(str) // true

/ab/i 表示一个正则表达式字面量，正则表达式的形式为 /pattern/flag，一对反斜线中间的 pattern 表示模式，之后的 flag 表示匹配标志。

test() 函数是正则表达式对象的内置方法，用于返回匹配的结果，true表示成功匹配，否则就返回false

标志

g 修饰符

默认情况下，第一次匹配成功后，正则对象就停止继续匹配了，g 修饰符表示全局匹配（global），加上以后，正则对象将匹配所有符合条件的结果，主要用于搜索和替换。

i 修饰符

默认情况下，正则对象区分字母的大小写，加上 i 修饰符以后表示忽略大小写（ignorecase）

m 修饰符

表示多行模式（multiline），会修改^和$的行为。默认情况下，^和$匹配字符串的开始处和结尾处，加上m修饰符以后，^和$还会匹配行首和行尾

元字符

如果在正则表达式之中，某个字符只表示它字面的含义，那么它们就叫做字面量字符，比如/a/匹配a。

除了字面量字符以外，还有一部分字符有特殊含义，不代表字面的意思。它们叫做元字符。学习正则表达式最难记忆的部分应该就是这些元字符了。

点元字符

点字符.匹配除回车\r、换行\n 、行分隔符\u2028和段分隔符\u2029以外的所有字符

// 匹配 c 和 t 之间包含任意一个字符的情况，只要这三个字符在同一行
const regex = /c.t/

regex.test('cat') // true
regex.test('c4t') // true
regex.test('c_t') // true
regex.test('client') // false
regex.test('cook') // false

位置元字符

位置字符用来提示字符所处的位置。主要有两个字符：^ 表示字符串的开始位置；$ 表示字符串的结束位置。

// test必须出现在开始位置
/^test/.test('test123') // true
/^test/.test('23test123') // false

// test必须出现在结束位置
/test$/.test('new test') // true
/test$/.test('new test start') // false

// 从开始位置到结束位置只有test
/^test$/.test('test') // true
/^test$/.test('test test') // false

选择元字符

竖线符号|在正则表达式中表示“或”（OR），例如cat|dog表示匹配cat或dog；竖线允许一个表达式包含多个不同的分支。所有分支用|分隔，和在字符层面上运作的字符集[abc]不同，分支在表达式层面上运作

/11|22/.test('911') // true

// 联合用法，匹配aaa、ccc、ddd之中的一个
/aaa|bbb|ccc/.test('34daaa') // true

转义元字符

正则表达式中那些有特殊含义的元字符，如果要匹配它们本身，就需要在它们前面要加上反斜杠\。比如要匹配+，就要写成\+

/1+1/.test('1+1') // false

/1\+1/.test('1+1') // true

正则表达式中，需要反斜杠转义的，一共有12个字符：^、.、[、$、(、)、|、*、+、?、{、\\

特殊元字符

正则表达式对一些不能打印的特殊字符，提供了表达方法，下面是一些常用的特殊字符：

[\b]：匹配退格键U+0008，不要与\b混淆
\n ：匹配换行键
\r ：匹配回车键
\t：匹配制表符 tab

可选字符

[]表示有一系列字符可供选择，只要匹配其中一个就可以了，比如[xyz] 表示 x、y、z 之中任选一个匹配

/[abc]/.test('hello world') // false

/[abc]/.test('apple') // true

脱字符

也叫“否定字符集”，如果[]内的第一个字符是^，则表示匹配除了[]中的字符之外的所有其他字符；例如：[^xyz]表示匹配除了 x、y、z 之外的任意字符。

/[^abc]/.test('hello world') // true

/[^abc]/.test('bbc') // false

如果[]内没有其他字符，即只有^，就表示匹配一切字符.其中包括换行符；相比之下，.作为元字符也可以匹配一切字符，但是不包括换行符。

连字符

对于连续序列的字符，使用连字符-用来提供简写形式，表示字符的连续范围。比如，[abc]可以写成[a-c]，[0123456789]可以写成[0-9]，同理[A-Z]表示26个大写字母

/a-z/.test('b') // false

/[a-z]/.test('b') // true

只有当-用在[]之中，才表示连续的字符序列。

模式重复

重复类

重复类用于指定一个模式的精确匹配次数，使用{}表示，例如/lo{2}ok/就表示匹配字母o重复出现的次数是 2

{n}表示恰好重复 n 次，{n,}表示至少重复 n 次，{n,m}表示重复不少于 n 次，不多于 m 次

/lo{2}k/.test('look') // true

/lo{1}k/.test('look') // false
  
/lo{2,5}k/.test('looook') // true

/lo{2,5}k/.test('looooook') // false

量词符

量词符相当于重复类的特殊情况的简写形式

问号？：表示某个模式出现0次或1次，等同于{0, 1}
星号*：表示某个模式出现0次或多次，等同于{0,}
加号+：表示某个模式出现1次或多次，等同于{1,}

分组

括号()表示分组匹配，括号中的模式可以用来匹配分组的内容。

/fred+/.test('fredd') // true
  
/(fred)+/.test('fredfred') // true

上面代码中，第一个模式没有括号，结果+只表示重复字母d，第二个模式有括号，结果+就表示匹配fred这个词

引用分组

存在很多个分组时，可以用\n（n 表示分组的位置）来引用某个分组，避免重复书写分组。

例如，通过正则表达式/(ha)-\1,(haa)-\2/g就可以匹配到字符串ha-ha,haa-haa，而不用写成/(ha)-(ha),(haa)-(haa)/g

非捕获分组

如果要忽略某个分组，可以在分组首部插入?:，这表示当前分组将不会被正则捕获到。例如：(?:ha)-ha,(haa)-\1，这里的 \1匹配的分组实际上是表达式中的第二个分组（haa），而不是第一个分组（ha）

先行断言

正向先行断言

用(?=)表示，当要匹配某个特定字符之前的字符时，就需要使用正向先行断言模式，例如要匹配字符串Date: 4 Aug 3PM中的小时数 3 ，正则表达式为/\d+(?=PM)/g

反向先行断言

用(?!)表示，匹配的是除了某个特定字符之前的字符，例如要匹配字符串Date: 4 Aug 3PM中的天数 4 ，正则表达式为/\d+(?!PM)/g

后行断言

正向后行断言

用(?<=)表示，例如：要匹配文本Product Code: 1064 Price: $5中的金额数 5 ，为了只匹配前面带有$的数字，就需要在表达式前面使用正向后行断言，正则表达式为/(?<=\$)\d+/g

反向后行断言

用(?<!)表示，例如：要在文本Product Code: 1064 Price: $5中匹配除价格以外的数字——前面没有$的数字，正则表达式为/(?<!\$)\d+/g

预定义模式

预定义模式指的是某些常见模式的简写方式：

\d：匹配 0-9 之间的任一数字，相当于 [0-9]
\D ：匹配所有 0-9 以外的字符，相当于[^0-9]
\w ：匹配任意的字母、数字和下划线，相当于[A-Za-z0-9_]
\W ：除所有字母、数字和下划线以外的字符，相当于[^A-Za-z0-9_]
\s ：匹配空格（包括换行符、制表符、空格符等），相等于[ \t\r\n\v\f]
\S ：匹配非空格的字符，相当于[^ \t\r\n\v\f]
\b ：匹配词的边界
\B ：匹配非词边界，即在词的内部

贪婪匹配与懒惰匹配

正则表达式默认执行贪婪匹配模式，即匹配到第一个有效结果后，并不立即停止，而是继续执行匹配，直到扫描完整个文本——这就是贪婪模式。

例如，有一段文本“r beer hear bar”，正则表达式/.*r/g 表示匹配所有以 r 结尾的字符，r beer hear bar都是有效匹配结果；如果只需要第一个匹配结果，则可以启用“懒惰匹配”，用*?表示；正则表达式/.*?r/g则表示匹配以 r 结尾的第一个字符，匹配结果就是r

参考资料：

RegexLearn (一个交互式在线演练场)—— aykutkardas

Javascript 标准参考教程 —— 阮一峰

RegExr 正则表达式在线工具

【Javascript】- 正则表达式

模式

标志