前言
不久前出去面试了一下,被问到了一个问题:
正则表达式 (?=a) 表示什么意思?
嗯,我花了几秒钟从脑子中检索答案,然后发现对于正则表达式方面的知识有许多地方记不清了!
so,我的回答是:
我只知道 ? 号是最少匹配前面一次的意思,加个 = 号就不太清楚了,是最少匹配一次 = 号后面的值的吗?
面了三轮后,告知我待定!
对于面试,我也算是身经百战了,待定的意思我明白,意思就是工作的内容能胜任,但我还要看看后面来面试的是不是有比你更好的。
得到这个结果后,我自己想了一下,是不是我面试中关于这个正则的回答没回答好!
于是,为了以后出去面试,从一个待定人士变为非你不可,我在自己研究加上请教一些网上朋友后,对于正则表达式有了些许体会。
写篇文章总结下。
(?=a) 代表什么意思!
(?=a)非获取匹配,正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。
还有四个和这个相近的:
(?!a)非获取匹配,正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。
(?:a)非获取匹配,匹配pattern但不获取匹配结果,不进行存储供以后使用。这在使用或字符“(|)”来组合一个模式的各个部分是很有用。
(?<=a)非获取匹配,反向肯定预查,与正向肯定预查类似,只是方向相反。
(?<!a)非获取匹配,反向否定预查,与正向否定预查类似,只是方向相反。
以上是官方的定义,比较难懂,我用自己的理解翻译了一下:
(?=a) 表示我们需要匹配某样东西的前面。
(?!a) 表示我们需要不匹配某样东西。
(?:a) 表示我们需要匹配某样东西本身。
(?<=a) 表示我们需要匹配某样东西的后面。
(?<!a) 表示我们需要不匹配某样东西,与(?!a)方向相反。
我的翻译可能还是不太容易理解,我们用代码来解释一下!
console.log("我是中国人".replace(/我是(?=中国)/, "rr")) // 输出: 'rr中国人',匹配的是中国前面的'我是'
console.log("我是中国人".replace(/(?!中国)/, "rr")) // 输出:'rr我是中国人'
console.log("我是中国人".replace(/(?:中国)/, "rr")) // 输出:'我是rr人',匹配'中国'本身
console.log("我是中国人".replace(/(?<=中国)人/, "rr")) // 输出:'我是中国rr',匹配的是中国后面的'人'
console.log("我是中国人".replace(/(?<!中国)/, "rr")) // 输出:'rr我是中国人'
Tips:(?!a)和(?<!a)都是输出的 'rr我是中国人',我的理解是,replace替换的时候匹配得是不包含中国的字符串,但是这个字符串又没有,那么js自动给加前面去了。
一些正则需要知道的概念
【分组】:
如果你想要在正则中重复匹配一个字符串,那么可以用一个 () 号给包起来,官方得说法是指定子表达式,也就是分组!
用代码解释就是:
\d{1,3} // 表示匹配1到3位的数字
(\d{1,3}\.){3} // 表示匹配三位数字加上一个英文句号,并且把这个分组(也就是这个匹配规则)重复三次
理解了分组这个概念,再复杂的表达式也可以拆分成几个细的分组来实现。
【后向引用】:
用 () 号创建了一个分组后,匹配这个子表达式的文本可以在表达式或其它程序中作进一步的处理。每个分组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。
如果你要重复搜索前面某个分组匹配的文本,可以用 \1 ,含义是,分组1匹配的文本,这种引用方式叫做后向引用。
用代码解释一下:
console.log("oh oh , oh my god!".replace(/\b(\w+)\b\s+\1\b/, "rr"))
// 输出:'rr , oh my god!'
// \b 匹配一个单词边界,一侧为单词的字符,另外一侧为非单词字符
// \b(\w+)\b,匹配单词开始处和结束处之间的多于一个的字母或数字
// \s+ 匹配一个或者多个空格
// \1 后向引用,重复一次
// 如果正则表达式去掉 \1
console.log("oh oh , oh my god!".replace(/\b(\w+)\b\s+/, "rr"))
// 输出:'rroh , oh my god!'
实际使用
数字格式化
console.log("1234567890".replace(/\B(?=(?:\d{3})+(?!\d))/g,","))
// 输出:'1,234,567,890'
去除ip地址
console.log("192.168.0.1".replace(/((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)/,"rr"))
// 输出:'rr'
去除字符串中的中文,英文或者数字
console.log("aaa我是中国人111".replace(/[^u4E00-u9FA5]/g, "")) // 去除中文,输出:'aaa111'
console.log("aaa我是中国人111".replace(/(\d)\1+/g, "")) // 去除数字,输出:'aaa我是中国人'
console.log("aaa我是中国人111".replace(/([a-z])\1+/g, "")) // 去除英文,输出:'我是中国人111'
以下省略一万个实际例子 ...
正则表达式规则表
结束
不研究不知道,一研究,发现正则表达式里面可以玩的东西太多了,篇幅和能力都有限,只能先到这里了,有什么错漏之处欢迎各位大大指出!