正则表达式过滤文本

356 阅读3分钟

一、正则表达式过滤文本

1. 元字符

元字符(字符匹配)

. :匹配任意单个字符,可以是一个汉字。

[ ] :匹配指定范围内的任意单个字符,例如[zhou]: zhou中其中一个字符,[0-9] :数字0-9之间任意一个字符。

[^ ] :匹配指定范围外的任意单个字符,例如^[a-z]:以a到z之间为开头的字符,[^a-z]:除了a到z之间的字符不匹配外,匹配其他字符。

示例1:元字符.

image.png

image.png

示例2:元字符[]

image.png

示例3:元字符^

image.png

常用的正则表达式

[:alnum:] 字母和数字
[:alpha:] 代表任何英文大小写字符,亦即 A-Z, a-z
[:lower:] 小写字母,示例:[[:lower:]],相当于[a-z]
[:upper:] 大写字母
[:blank:] 空白字符(空格和制表符)
[:space:] 包括空格、制表符(水平和垂直)、换行符、回车符等各种类型的空白,比[:blank:]包含的范围广

\w #匹配单词构成部分,等价于[_[:alnum:]]
\W #匹配非单词构成部分,等价于[^_[:alnum:]]
\S     #匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\s     #匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意
Unicode 正则表达式会匹配全角空格符

2. 表示次数

*     #匹配前面的字符任意次,包括0次,贪婪模式:尽可能长的匹配
.*    #任意长度的任意字符,不包括0次
?     #匹配其前面的字符出现0次或1次,即:可有可无
+     #匹配其前面的字符出现最少1次,即:肯定有且 >=1 次
{n}   #匹配前面的字符n次
{m,n} #匹配前面的字符至少m次,至多n次
{,n}  #匹配前面的字符至多n次,<=n
{n,}  #匹配前面的字符至少n次

示例:

image.png

image.png

3. 位置锚定

^ #行首锚定, 用于模式的最左侧
$ #行尾锚定,用于模式的最右侧
^PATTERN$ #用于模式匹配整行 (单独一行  只有root)
^$ #空行
^[[:space:]]*$ #  空白行


< 或 \b        #词首锚定,用于单词模式的左侧(连续的数字,字母,下划线都算单词内部)
> 或 \b        #词尾锚定,用于单词模式的右侧
<PATTERN>     #匹配整个单词

示例

image.png

4.分组或其他

分组

()将多个字符捆绑在一起,当作一个整体处理,如:(root)+

后项引用:分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名

方式为: \1, \2, \3,...

\1表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符

或者:\

示例:

image.png

image.png

5. 扩展正则表达式(表示字符相差不大)

扩展正则表达式格式:grep -E

表示次数

*     匹配前面字符任意次
?     0或1次
+     1次或多次
{n}   匹配n次
{m,n} 至少m,至多n次
{,n}  匹配前面的字符至多n次,<=n,n可以为0
{n,}  匹配前面的字符至少n次,<=n,n可以为0

表示分组

() 分组
分组:() 将多个字符捆绑在一起,当作一个整体处理,如:(root)+
后向引用:\1, \2,...
| 或者  
a|b #a或b
C|cat #C或cat
(C|c)at #Cat或cat

示例:

image.png