重学正则表达式(一)

226 阅读4分钟

先来个案例,没学正则之前你的代码可能是这样的

	/**
     * 手机号脱敏
     * @param phoneNumber 待脱敏的手机号
     * @return 脱敏完成的手机号
     */
    private static String maskCellPhoneNumber(String phoneNumber) {
        if (phoneNumber == null || phoneNumber.length() != 11) {
            return "";
        }
        return "***" + phoneNumber.substring(3, 7) + "****";
    }

学完正则表达式后你的代码可能是这样的

	/**
     * 手机号脱敏
     * @param phoneNumber 待脱敏的手机号
     * @return 脱敏完成的手机号
     */
	private static String maskCellPhoneNumber(String phoneNumber) {
        if (phoneNumber == null || phoneNumber.length() != 11) {
            return "";
        }
        return phoneNumber.replaceAll("^1\\d{2}(\\d{4})\\d{4}$", "***$1****");
    }

不知道为什么,我就感觉下面的代码比上面的代码有逼格...

老实说,我不确定这是自己第几次学习正则表达式了,每次业务需要使用正则表达式的时候,都是百度一下解决,也曾花时间去专门学习正则,学习的结果是没过几天又什么都不记得了。学了多次也就限于知道 \d 表示数字, \d{3,5} 表示数字出现3到5次,仅限于此。要想处理一个类似校验密码规则(长度6到12位,必须包含大写字母,小写字母,数字,特殊符号中的2种及以上)类似的问题就有点难于下手了。之前刚刚出差了小半年,现在刚回到职场不久,趁着有点时间,打算好好学习一下正则表达式,至于能学到什么程度我也不知道,尽自己最大的努力吧!再此做记录,也方便自己以后查阅。顺便说一下,本人的编程母语是java,所以用到案例的时候也会以java语言为准。好了,废话说了不少,言归正传,开始正餐。

学习正则表达式,首先我们需要认识正则表达式的基本元件,例如上面我提到的 \d{3,5},他们是在正则表达式中具有特殊意义的字符。

特殊字符

字符含义
\d表示任意单个数字
\w表示任意单个数字或字母或下划线
\s表示任意单个空白符
\D任意非数字
\W任意非字母数字下划线
\S任意非空白字符

刚刚上面提到的字符都是表示单个字符,如果我们要匹配多个字符,这事就需要用到我们下面提到的量词。

量词

字符含义
*表示它前面的字符出现0到多次
+表示它前面的字符出现1到多次,即至少出现一次
?表示它前面的字符出现0次或1次
{m,n}表示它前面的字符出现m到n次
{m}表示它前面的字符出现m次
{m,}表示它前面的字符至少出现m次

了解了上面的内容,我们知道如果要匹配一个11位的数字,我们可以使用正则 \d{11} 来完成,但是如果我们需要匹配一个手机号,上面的这个正则还不满足要求,因为 手机号的第一位一定是 1,第二位不能是0等等,这时我们需要用到一些表示范围的字符。

范围

字符含义
``标识或的意思,例如 ab|ac代表ab或者ac
[...]代表多选一,括号中任意单个字符
[a-z]匹配a-z之间任意单个字符
[0-9]匹配0-9之间任意单个字符,也即 \d 的含义
[^...]是对[...]的取反,即不能包含括号中的任意字符

例如个资源可能以 http:// 开头,或者 https:// 开头,也可能以 ftp:// 开头,协议部分,我们可以使用 (http|https|ftp):// 来表示,更好的方法是使用 (https?|ftp):// ,因为前面表达式中s?表示了s可能出现1次,也可能不出现。 还有我们上面提到的匹配手机号的案例,我们现在就可以写一个更完整的正则表达式出来 ^1[345789]\d{9}$ 上面的表达式相对还是很好理解的,1,因为我们手机号第一位是1,[345789]手机号的第二位是345789中的任意一个数字(ps:因为目前笔者没有看到11...、12...、16...类似的手机号,如果有了,是笔者孤陋寡闻,大家明白这个意思就可以了),接着后面 \d{9}跟着9位任意数字,这样就组成了一个手机号。顺带提一下,上面这个表达式的开始有一个 ^ 符号,这个不是表示取反的意思,表示的是正则表达式的开始,结尾有一个 $ 符号,表达表达式的结束,后面还会提到。

第一节的内容就到这里了,我们先认识了正则表达式里面的一些基本字符,后面会继续学习一些更深入的内容,我们下节见,由于本人对正则的认知有限,如文中有表达不到位或者错误的地方,欢迎大家批评指正,感谢。

系列文章如下:

重学正则表达式(二)

重学正则表达式(三)

重学正则表达式(四)

重学正则表达式(五)