【进阶第 14 期】正则表达式入门 [TOC] 前言正则表达式功能：验证、查找、替换 1.验证字符串是否符合指定特征

[TOC]

前言

正则表达式功能：验证、查找、替换

1.验证字符串是否符合指定特征，比如验证是否是合法的邮件地址。Validation 2. 用来查找字符串，从一个长的文本中查找符合指定特征的字符串，比查找固定字符串更加灵活方便。Match/find 3. 用来替换，比普通的替换更强大。Replace

正则表达式规则

字符分类

普通字符

字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号，都是"普通字符"。

简单的转义字符

表达式 | 可匹配 -- | -- |-- \r, \n| 代表回车和换行符 \t | 制表符 \ | 代表 "" 本身

还有其他元字符，在前面加 "\" 后，就代表该符号本身

表达式	可匹配
`\^`	匹配 ^ 符号本身
`\$`	匹配 $ 符号本身
`\.`	匹配小数点（.）本身

举例1： 表达式 "$d"，在匹配字符串 "abc $de" 时，匹配结果是：成功；匹配到的内容是："$ d"；匹配到的位置是：开始于3，结束于5。

元字符

分类：

单个字符集、自定义字符集合
字符次数限定符
边界界定符
匹配引用

字符集

匹配 '多种字符' 其中的任意一个字符

表达式	可匹配
\d	任意一个数字，0~9 中的任意一个
\w	任意一个字母或数字或下划线，也就是 A~~Z,a~~z,0~9, _ 中任意一个
\s	包括空格、制表符、换页符等空白字符的其中任意一个
.	小数点可以匹配除了换行符（\n）以外的任意一个字符

举例1： 表达式 "\d\d "，在匹配 "abc123" 时，匹配的结果是：成功；匹配到的内容是："12"；匹配到的位置是：开始于3，结束于5。

自定义字符集

自定义能够匹配 '多种字符' 的任意一个字符

表达式	可匹配
[ab5@]	匹配 "a" 或 "b" 或 "5" 或 "@"
[^abc]	匹配 "a","b","c" 之外的任意一个字符
[f-k]	匹配 "f"~"k" 之间的任意一个字母
[^A-F0-3]	匹配 "A"~~"F","0"~~"3" 之外的任意一个字符
`举例1：`表达式 " [bcd] [bcd] " 匹配 "abc123" 时，匹配的结果是：成功；匹配到内容是："bc"；匹配的位置是：开始于1，结束于3。
`举例2：`表达式 " [^abc] " 匹配 "abc123" 时，匹配的结果是：成功；匹配到的内容是："1"；匹配到的位置是：开始于3，结束于4。

次数限定符

修饰匹配次数的特殊符号 使用方法是："次数修饰"放在"被修饰的表达式"后边。

表达式	作用
{n}	表达式重复n次，比如： "\w{2}" 相当于 "\w\w" ； "a{5}" 相当于 "aaaaa"
{m,n}	表达式至少重复m次，最多重复n次，比如： "ba{1,3}"可以匹配 "ba"或"baa"或"baaa"
{m,}	表达式至少重复m次，比如： "\w\d{2,}"可以匹配 "a12","_456","M12344"...
?	出现零次或一次，最多一次，相当于 {0,1}，比如： "a[cd]?"可以匹配 "a","ac","ad"

| 表达式至少出现1次，相当于 {1,}，比如： "a+b"可以匹配 "ab","aab","aaab"... * | 出现任意次（零次、一次、多次），相当于 {0,}，比如： "^*b"可以匹配 "b","^^^b"...

举例1： 表达式 " \d + . ? \d * " 在匹配 "It costs $12.5" 时，匹配的结果是：成功；匹配到的内容是："12.5"；匹配到的位置是：开始于10，结束于14。 举例2： 表达式 " go {2,8} gle " 在匹配 "Ads by goooooogle" 时，匹配的结果是：成功；匹配到的内容是："goooooogle"；匹配到的位置是：开始于7，结束于17。

边界（位置）界定符

其他一些代表抽象意义的特殊符号

表达式	作用
^	与字符串开始的地方匹配，不匹配任何字符
$	与字符串结束的地方匹配，不匹配任何字符
\b	匹配一个单词边界，也就是单词和空格之间的位置，不匹配任何字符
\1 \2 ..\7	标识一个八进制转义码或反向引用。如果 \n前面至少有n个捕获子表达式，那么 n 是反向引用。否则，如果n是八进制数 (0-7)，那么n是八进制转义码。

举例1： 表达式 ^aaa 在匹配 "xxxaaa xxx" 时，匹配结果是：失败。因为 "^" 要求与字符串开始的地方匹配，因此，只有当 "aaa" 位于字符串的开头的时候，"^aaa" 才能匹配，比如："aaaxxxxxx" 。 举例2： 表达式 aaa$ 在匹配 "xxx aaa xxx" 时，匹配结果是：失败。因为 " $" 要求与字符串结束的地方匹配，因此，只有当 "aaa" 位于字符串的结尾的时候，"aaa$ " 才能匹配，比如："xxx xxx aaa" 。 举例3： 表达式 " .\b." 在匹配 "@@@abc" 时，匹配结果是：成功；匹配到的内容是："@a"；匹配到的位置是：开始于2，结束于4。

进一步说明：

"\b" 与 "^" 和 "$" 类似，本身不匹配任何字符，但是它要求它在匹配结果中所处位置的左右两边，其中一边是 "\w" 范围，另一边是 非"\w" 的范围。

举例4： 表达式 " \b end \b " 在匹配 "weekend,endfor,end" 时，匹配结果是：成功；匹配到的内容是："end"；匹配到的位置是：开始于15，结束于18。

一些符号可以影响表达式内部的子表达式之间的关系：

表达式	作用
竖线	左右两边表达式之间 "或" 关系，匹配左边或者右边
( )	(1). 在被修饰匹配次数的时候，括号中的表达式可以作为整体被修饰 (2). `取匹配结果`的时候，括号中的表达式匹配到的内容可以被单独得到

举例5： 表达式 " Tom | Jack " 在匹配字符串 "I'm Tom, he is Jack" 时，匹配结果是：成功；匹配到的内容是："Tom"；匹配到的位置是：开始于4，结束于7。匹配下一个时，匹配结果是：成功；匹配到的内容是："Jack"；匹配到的位置时：开始于15，结束于19。

举例6： 表达式 " ( go \s * ) + " 在匹配 "Let's go go go!" 时，匹配结果是：成功；匹配到内容是："go go go"；匹配到的位置是：开始于6，结束于14。

举例7： 表达式 " ￥ ( \d + . ? \d * ) " 在匹配 "＄10.9,￥20.5" 时，匹配的结果是：成功；匹配到的内容是："￥20.5"；匹配到的位置是：开始于6，结束于10。单独获取括号范围匹配到的内容是："20.5"。

字符集以外

表达式	可匹配
\S	匹配所有非空白字符（"\s" 可匹配各个空白字符）
\D	匹配所有的非数字字符
\W	匹配所有的字母、数字、下划线以外的字符
\B	匹配非单词边界，即左右两边都是 "\w" 范围或者左右两边都不是 "\w" 范围时的字符缝隙
[^x]	匹配非x字符
[^aeiou]	匹配非a、e、i、o、u字符

引用匹配到的字符串

符号	释义
$1、$ 2、...、$99	与 regexp 中的第 1 到第 99 个子表达式相匹配的文本。
$&	与 regexp 相匹配的子串。
$`	位于匹配子串左侧的文本。
$'	位于匹配子串右侧的文本。