浅析正则表达式

117 阅读3分钟


正则表达式在我们的日常工作中,无论是前端,后端开始其他IT岗位都是经常需要用到的,虽然他不难但是由于他的知识点比较琐碎,所以我们需要系统的对其进行学习。

正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串

正则表达式简单来说就是帮助我们搜索、编辑或者处理文本的一种技术。例如,我们要判断一段文本是否包含b,aab,aaab,我们就可以使用a*b这样的一串正则表达式。

常见分类

字符

表达式描述举例/备注
[abc]字符集合。匹配所包含的任意一个字符。匹配 "plain" 中的 'a'
[^abc]负值字符集合。匹配未包含的任意字符。匹配 "plain" 中的'p'、'l'、'i'、'n'
[a-z]字符范围。匹配指定范围内的任意字符。匹配 'a' 到 'z' 范围内的任意小写字母字符
.匹配除换行符(\n、\r)之外的任何单个字符。匹配 "plain" 中的'p'、'l'、'a'、'i'、'n'
\将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\' 匹配 "" 而 "(" 则匹配 "("
\w匹配字母、数字、下划线。等价于'[A-Za-z0-9_]'
\W匹配非字母、数字、下划线。等价于 '[^A-Za-z0-9_]'
\d匹配一个数字字符。等价于 [0-9]
\D匹配一个非数字字符等价于 [^0-9]
\s匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]
\S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]

锚点/边界

^匹配输入字符串的开始位置。^a,以a开头
$匹配输出字符串的结束位置。b$,以b结尾
\b匹配一个单词边界,也就是指单词和空格间的位置。'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
\B匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。

数量表示

*匹配前面的子表达式零次或多次。zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。
+匹配前面的子表达式一次或多次。'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。
?匹配前面的子表达式零次或一次。"do(es)?" 可以匹配 "do" 或 "does" 。? 等价于 {0,1}。
{n}n 是一个非负整数。匹配确定的 n 次。'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
{n,}n 是一个非负整数。至少匹配n 次。'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m}m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。

特殊标志

i将匹配设置为不区分大小写搜索时不区分大小写: A 和 a 没有区别。
g全局匹配查找所有的匹配项。
m多行匹配使边界字符 ^ 和 $ 匹配每一行的开头和结尾,记住是多行,而不是整个字符串的开头和结尾。
s特殊字符圆点 . 中包含换行符 \n默认情况下的圆点 . 是匹配除换行符 \n 之外的任何字符,加上 s 修饰符之后, . 中包含换行符 \n。

其他

?当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。
x|y匹配 x 或 y。z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。

正则表达式举例分析

菜鸟教程例子

image.png

正则表达式工具

可视化工具

菜鸟工具

image.png

测试工具

菜鸟工具

image.png

在Java中的应用

主要用到Pattern,Matcher这两个类

常见函数

  • matches:整个匹配,只有整个字符序列完全匹配成功,才返回True,否则返回False。
  • lookingAt:部分匹配,总是从 第一个字符 进行匹配,匹配成功了不再继续匹配,匹配失败了,也不继续匹配。
  • find:部分匹配,从 当前位置 开始匹配,找到一个匹配的子串,将移动下次匹配的位置。
  • reset:给当前的Matcher对象配上个新的目标,目标是就该方法的参数;如果不给参数,reset会把Matcher设到当前字符串的 开始处
  • start:返回以前匹配的初始索引。
  • end:返回最后匹配字符之后的偏移量。
 private static final String REGEX = "foo";
    private static final String INPUT = "foooooofooooooooooo";
    private static Pattern pattern;
    private static Matcher matcher;

    public static void main(String args[]) {
        pattern = Pattern.compile(REGEX);
        matcher = pattern.matcher(INPUT);

        System.out.println("Current REGEX is: " + REGEX);
        System.out.println("Current INPUT is: " + INPUT);

        System.out.println("find01(): " +matcher.find());//find01(): true
        System.out.println(matcher.group()+" - "+matcher.start()+"-"+matcher.end());//foo - 0-3

        System.out.println("find02(): " +matcher.find());//find02(): true
        System.out.println(matcher.group()+" - "+matcher.start()+"-"+matcher.end());//foo - 7-10

        matcher.reset();
        
        System.out.println("find03(): " +matcher.find());//find03(): true
        System.out.println(matcher.group()+" - "+matcher.start()+"-"+matcher.end());//foo - 0-3
        
        System.out.println("lookingAt(): " + matcher.lookingAt());//lookingAt(): true
        System.out.println(matcher.group()+" - "+matcher.start()+"-"+matcher.end());//foo - 0-3

        System.out.println("matches(): " + matcher.matches());//matches(): false
    }

这里要介绍一下捕获组的概念:

捕获组是把多个字符当一个单独单元进行处理的方法,它通过对括号内的字符分组来创建。

例如,正则表达式(dog) 创建了单一分组,组里包含"d","o",和"g"。

捕获组是通过从左至右计算其开括号来编号。例如,在表达式((A)(B(C))),有四个这样的组:

  • ((A)(B(C)))
  • (A)
  • (B(C))
  • (C)

可以通过调用matcher对象的groupCount方法来查看表达式有多少个分组。groupCount方法返回一个int值,表示matcher对象当前有多个捕获组。

还有一个特殊的组(组0),它总是代表整个表达式。该组不包括在groupCount的返回值中。

从而引出下面三个函数中参数的使用:

  • group(i)中的参数i:表示符合正则表达式捕获组i的字符串
  • start(i)中的参数i:表示符合正则表达式捕获组i的字符串起始位置
  • end(i)的参数i:表示符合正则表达式捕获组i的字符串结束位置

下面具体分析一个例子:

  
      // 按指定模式在字符串查找
        String line = "I was 100 years old 7 you are 200 years old 123456";
        String pattern = "(\D+)(\d+)(\D+)";

        // 创建 Pattern 对象
        Pattern r = Pattern.compile(pattern);

        // 现在创建 matcher 对象
        Matcher m = r.matcher(line);
        int groupCount = m.groupCount();
        System.out.println(groupCount);
        while (m.find()) {
            for (int n = 0; n <= groupCount; n++) {
                System.out.println("Found value: " + m.group(n) + ":" + m.start(n) + ":" + m.end(n));
            }
            System.out.println();
        }
        //3
        //Found value: I was 100 years old :0:20
        //Found value: I was :0:6
        //Found value: 100:6:9
        //Found value:  years old :9:20
    
        //Found value:  you are 200 years old:21:43
        //Found value:  you are :21:30
        //Found value: 200:30:33
        //Found value:  years old:33:43

首先我们看一下整个正则表达式能表示的字符串(1个或者多个非数字字符)(1个或多个数字字符)(1个或者多个非数字字符)

组0:1个或者多个非数字字符 连接 1个或多个数字字符 1个或者多个非数字字符

组1:1个或者多个非数字字符

组2:1个或多个数字字符

组3:1个或者多个非数字字符

组0能匹配到字符串=》组1,2,3都可以匹配到字符串,思考一下对不对?是对的吧。

我们可以认为find是去匹配组0的,一旦find匹配到了第一个字符串,也就是I was 100 years old,那group(0)其实就是I was 100 years old,group (1)就是I was,以此类推。并且Java的正则表达式默认是贪婪匹配,总是匹配最长的,所以group(2)才是100,而不是1。

而我们进入下一次的find,匹配到的第二个字符串就是 you are 200 years old,group(0)就是you are 200 years old,group(1)就是you are ,以此类推。

而每一次的start,end就是对应组的起始和结束位置。

假如说组1,组2能匹配到,但是组3匹配不到,那我们可以认为组0其实无法匹配到符合的字符串,那么find其实返回的是false,就无法进入下一次循环。

常见的正则表达式

一、校验数字的表达式

-   数字:^[0-9]*$
-   n位的数字:^\d{n}$
-   至少n位的数字:^\d{n,}$
-   m-n位的数字:^\d{m,n}$
-   零和非零开头的数字:^(0|[1-9][0-9]*)$
-   非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(\.[0-9]{1,2})?$
-   带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})$
-   正数、负数、和小数:^(\-|\+)?\d+(\.\d+)?$
-   有两位小数的正实数:^[0-9]+(\.[0-9]{2})?$
-   有1~3位小数的正实数:^[0-9]+(\.[0-9]{1,3})?$
-   非零的正整数:^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$
-   非零的负整数:^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$
-   非负整数:^\d+$ 或 ^[1-9]\d*|0$
-   非正整数:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
-   非负浮点数:^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
-   非正浮点数:^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
-   正浮点数:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
-   负浮点数:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
-   浮点数:^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

二、校验字符的表达式

-   -   汉字:^[\u4e00-\u9fa5]{0,}$
-   英文和数字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
-   长度为3-20的所有字符:^.{3,20}$
-   由26个英文字母组成的字符串:^[A-Za-z]+$
-   由26个大写英文字母组成的字符串:^[A-Z]+$
-   由26个小写英文字母组成的字符串:^[a-z]+$
-   由数字和26个英文字母组成的字符串:^[A-Za-z0-9]+$
-   由数字、26个英文字母或者下划线组成的字符串:^\w+$ 或 ^\w{3,20}$
-   中文、英文、数字包括下划线:^[\u4E00-\u9FA5A-Za-z0-9_]+$
-   中文、英文、数字但不包括下划线等符号:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
-   可以输入含有^%&',;=?$\"等字符:[^%&',;=?$\x22]+
-   禁止输入含有~的字符:[^~]+

三、特殊需求表达式

-   Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
-   域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+\.?
-   InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
-   手机号码:^(13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}$
-   电话号码("XXX-XXXXXXX""XXXX-XXXXXXXX""XXX-XXXXXXX""XXX-XXXXXXXX""XXXXXXX""XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$
-   国内电话号码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
-   电话号码正则表达式(支持手机号码,3-4位区号,7-8位直播号码,1-4位分机号): ((\d{11})|^((\d{7,8})|(\d{4}|\d{3})-(\d{7,8})|(\d{4}|\d{3})-(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1})|(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1}))$)
-   身份证号(15位、18位数字),最后一位是校验位,可能为数字或字符X:(^\d{15}$)|(^\d{18}$)|(^\d{17}(\d|X|x)$)
-   帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
-   密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$
-   强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在 8-10 之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z])[a-zA-Z0-9]{8,10}$
-   强密码(必须包含大小写字母和数字的组合,可以使用特殊字符,长度在8-10之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
-   日期格式:^\d{4}-\d{1,2}-\d{1,2}
-   一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])$
-   一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
-   xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
-   中文字符的正则表达式:[\u4e00-\u9fa5]
-   双字节字符:[^\x00-\xff] (包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))
-   空白行的正则表达式:\n\s*\r (可以用来删除空白行)
-   HTML标记的正则表达式:<(\S*?)[^>]*>.*?|<.*? /> ( 首尾空白字符的正则表达式:^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)
-   腾讯QQ号:[1-9][0-9]{4,} (腾讯QQ号从10000开始)
-   中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)
-   IPv4地址:((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})){3}