正则表达式

101 阅读1分钟

定义及作用

Regular Expression, 正则表达式, ⼀种使⽤表达式的⽅式对字符串 进⾏匹配的语法规则.我们抓取到的⽹⻚源代码本质上就是⼀个超⻓的字符串, 想从⾥⾯提 取内容.⽤正则再合适不过了.

使用方式

网站tool.oschina.net/regex/可以用来测…

. 匹配除换⾏符以外的任意字符
\w 匹配字⺟或数字或下划线
\s 匹配任意的空⽩符 
\d 匹配数字
\n 匹配⼀个换⾏符 
\t 匹配⼀个制表符 
^ 匹配字符串的开始 
$ 匹配字符串的结尾
\W 匹配⾮字⺟或数字或下划线
\D 匹配⾮数字
\S 匹配⾮空⽩符
a|b 匹配字符a或字符b 
() 匹配括号内的表达式,也表示⼀个组
[...] 匹配字符组中的字符
[^...] 匹配除了字符组中字符的所有字符

控制次数

image.png

重要用法

贪婪匹配和惰性匹配

image.png

image.png

image.png

.?*会从字符串里一个一个比较,只要满足条件则匹配上,然后继续,有几个满足条件就匹配几个,而.*会从整个字符串出发,匹配尽可能多的字符串