介绍一个适合初学者的正则小游戏

612 阅读11分钟

晚上横竖睡不着,逛知乎看到了一个人推荐了一个正则练习网站,玩了玩,一共五十五关,每一关都是一个小知识点,还是挺有意思的。这个只适合于不懂正则的人,熟悉的就不用浪费时间了。我应该是疯了,大半夜玩这个东西,啥也没学到 :) 网站地址: regexlearn.com/learn

一、什么是正则表达式

正则表达式是表示搜索模式的字符串,常缩写成 RegEx 或 RegExp。它常用于查找和替换文本中的字词。此外,我们可以测试文本是否符合我们设置的规则。

例如,您只想查找文件名列表中,扩展名是 pdf 的文件,那您只需跟着输入 ^\w+\.pdf$ 就可以找到。随着课程 的进行,表达式的含义会变得更加清晰。 字符串:

readme.md
document.pdf
image.png
music.mp4
manual.pdf

正则表达式:

/^\w+\.pdf$/gm

二、基本匹配

我们想要查找的字符或单词可以直接输入,就像搜索一样。例如,要找出文本中的 curious 一词,只需输入同样的内容

字符串:

I have no special talents. I am only passionately curious.”

― Albert Einstein

正则表达式:

/curious/gm

三、点 .:任何字符

. 允许匹配任何字符,包括特殊字符和空格。

字符串:

abcABC123.:!?

正则表达式:

/./g

四、字符集 [abc]

如果一个词中的字符可以是各种字符,我们就将所有的可选字符写进中括号 [] 中。例如,为了查找文本中的所有单词,我们需要编写表达式,在 [] 中相邻地输入字符 a、e、i、o、u。

字符串:

bar ber bir bor bur

正则表达式:

/b[aeiou]r/g

五、否定字符集 [^abc]

为了查找下方文本的所有单词(ber 和 bor 除外),请在 [] 中的 ^ 后面并排输入 e 和 o。

字符串:

bar ber bir bor bur

正则表达式:

/b[^eo]r/g

六、字母范围 [a-z]

为了查找指定范围的字母,我们需要将起始字母和结束字母写进 [] 中,中间用连字符 - 分隔。它区分大小写。请编写表达式,匹配 e 和 o 之间所有的小写字母,包括它们本身。

字符串:

abcdefghijklmnopqrstuvwxyz

正则表达式:

/[e-o]/g

七、数字范围 [0-9]

为了查找指定范围的数字,我们需要在 [] 中输入起始和结束数字,中间用连字符 - 分隔。请编写表达式,匹配 3 到 6 之间的所有数字,包括它们本身。

字符串:

0123456789

正则表达式:

/[3-6]/g

八、练习

现在是时候做一些练习来巩固我们学到的知识了。

九、练习:基本匹配

请编写表达式,匹配文本中的单词 of。

字符串:

“Every man takes the limits of his own field of vision for the limits of the world.”
― Arthur Schopenhauer

正则表达式:

/of/g

十、练习:匹配任意字符

请编写表达式,匹配文本中所有字母、数字、空格和特殊字符。表达式必须匹配任何字符。

字符串:

azAZ09_-=!?.,:;

正则表达式:

/./g

十一、练习:字符集

请编写表达式,匹配文本中所有仅首字母不同的单词。

字符串:

beer deer feer

正则表达式:

/[bdf]eer/g

十二、练习:否定字符集

请编写表达式,匹配除 beor 和 beur 以外的所有单词。要求使用否定字符集完成。

字符串:

bear beor beer beur

正则表达式:

/be[^ou]r/g

十三、练习:字母范围

请编写表达式,匹配 g 到 k 之间的所有字母,包括它们本身。。

字符串:

abcdefghijklmnopqrstuvwxyz

正则表达式:

/[g-k]/g

十四、练习:数字范围

请编写表达式,匹配 2 到 7 之间的所有数字,包括它们本身。

字符串:

0123456789

正则表达式:

/[2-7]/g

十五、练习已完成!

十六、重复

一些特殊字符用来指定一个字符在文本中重复的次数。它们分别是加号 +、星号 * 和问号 ?。

十七、星号 *

我们在字符后面加上 *,表示一个字符完全不匹配或可以匹配多次。例如,表示字母 e 在下方文本中不出现,只出现一次或者并排出现多次。

字符串:

br ber beer

正则表达式:

/be*r/g

十八、加号 +

为了表示一个字符可以出现一次或多次,我们将 + 放在它后面。例如,表示 e 在下方文本中出现一次或多次。

字符串:

br ber beer

正则表达式:

/be+r/g

十九、问号 ?

为了表示一个字符是可选的,我们在它后面加一个 ?。例如,表示下方文本中的字母 u 是可选的。

字符串:

color, colour

正则表达式:

/colou?r/g

二十、大括号 - 1

为了表示一个字符出现的确切次数,我们在该字符的末尾,将它出现的次数写进大括号 {} 中,如 {n}。例如,表示下方文本中的字母 e 只能出现 2 次。

字符串:

ber beer beeer beeeer

正则表达式:

/be{2}r/g

二十一、大括号 - 2

为了表示一个字符至少出现多少次,我们在该字符的末尾,将它至少应出现的次数写进大括号 {} 中,并在数字后面加上逗号 ,,如 {n, }。例如,表示下方文本中的字母 e 至少出现 3 次。

字符串:

ber beer beeer beeeer

正则表达式:

/be{3,}r/g

二十二、大括号 - 3

为了表示一些字符出现的次数在某个数字范围内,我们在该字符的末尾,将它至少和至多出现的次数写进大括号 {} 中,中间用逗号 , 分隔,如 {x,y}。例如,匹配下方文本中,字母 e 出现 1 至 3 次的单词。

字符串:

ber beer beeer beeeer

正则表达式:

/be{1,3}r/g

二十三、练习

现在是时候做一些练习来巩固我们学到的知识了。

二十四、练习:星号 *

请编写表达式,用 * 匹配下方文本中,没有或存在多个字母 e 的单词。

字符串:

dp dep deep

正则表达式:

/de*p/g

二十五、练习:加号 +

请编写表达式,用 + 匹配下方文本中,字母 e 出现一次或多次的单词。

字符串:

dp dep deep

正则表达式:

/de+p/g

二十六、练习:问号 ?

请编写表达式,用 ? 表示字母 n 在文本中是可选的,使 a 和 an 都可以匹配到。

字符串:

a, an

正则表达式:

/an?/g

二十七、练习:大括号 - 1

用 {} 编写表达式,匹配文本中的 4 位阿拉伯数字。

字符串:

Release 10/9/2021

正则表达式:

/[0-9]{4}/g

二十八、练习:大括号 - 2

用 {} 编写表达式,匹配文本中位数至少为 2 的阿拉伯数字。

字符串:

Release 10/9/2021

正则表达式:

/[0-9]{2,}/g

二十九、练习:大括号 - 3

用 {} 编写表达式,匹配文本中位数为 1 至 4 的阿拉伯数字。

字符串:

Release 10/9/2021

正则表达式:

/[0-9]{1,4}/g

三十、练习已完成!

三十一、括号 ( ): 分组

我们可以对一个表达式进行分组,并用这些分组来引用或执行一些规则。为了给表达式分组,我们需要将文本包裹在 () 中。现在,请尝试为下方文本中的 haa 构造分组。

字符串:

ha-ha,haa-haa

正则表达式:

/(haa)/g

三十二、引用组

单词 ha 和 haa 分组如下。第一组用 \1 来避免重复书写。这里的 1 表示分组的顺序。请在表达式的末尾键入 \2 以引用第二组。

字符串:

ha-ha,haa-haa

正则表达式:

/(ha)-\1,(haa)-\2/g

三十三、括号 (?: ): 非捕获分组

您可以对表达式进行分组,并确保它不被引用捕获。例如,下面有两个分组,但我们用 \1 引用的第一个组实际上是指向第二个组,因为第一个是未被捕获的分组。

字符串:

ha-ha,haa-haa

正则表达式:

/(?:ha)-ha,(haa)-\1/g

三十四、竖线 |

竖线允许一个表达式包含多个不同的分支。所有分支用 | 分隔。和在字符层面上运作的字符集 [abc] 不同,分支在表达式层面上运作。例如,下面的表达式同时匹配 cat 和 Cat。请在末尾添加另一个 |,并输入 rat 以匹配所有单词。

字符串:

cat Cat rat

正则表达式:

/(C|c)at|rat/g

三十五、转义字符 \

在书写正则表达式时,我们会用到 { } [ ] / \ + * . $^ | ? 这些特殊字符 。为了匹配这些特殊字符本身,我们需要通过 \ 将它们转义。例如,要匹配文本中的 . 和 *,我们需要在它们前面添加一个 \。

字符串:

(*) Asteriks.

正则表达式:

/(\*|\.)/g

三十六、插入符 ^: 匹配字符串的开始

我们用 [0-9] 查找数字,若仅查找行首的数字,请在表达式前面加上 ^。

字符串:

1. 3 eggs, beaten
2. 1 tsp sunflower oil
3. 1 tsp butter

正则表达式:

/^[0-9]/g

三十七、美元符号 $: 匹配字符串的结束

让我们在 html 的后面添加 $,来查找仅在行末出现的 html。

字符串:

https://domain.com/what-is-html.html
https://otherdomain.com/html-elements
https://website.com/html5-features.html

正则表达式:

/html$/g

三十八、单词字符 \w: 字母、数字和下划线

表达式 \w 用于查找字母、数字和下划线。让我们用表达式 \w 来查找文本中的单词字符。中间用连字符 - 分隔。它区分大小写。请编写表达式,匹配 e 和 o 之间所有的小写字母,包括它们本身。

字符串:

abcABC123 _.:!?

正则表达式:

/\w/g

三十九、非单词字符 \W

\W 匹配除字母、数字和下划线之外的字符。

字符串:

abcABC123_.:!?

正则表达式:

/\W/g

四十、数字字符 \d

\d 仅用来匹配数字。

字符串:

abcABC123 .:!?

正则表达式:

/\d/g

四十一、非数字字符 \D

\D 匹配除数字之外的字符

字符串:

abcABC123.:!?

正则表达式:

/\D/g

四十二、空白符 \s

\s 仅匹配空白字符。

字符串:

abcABC123.:!?

正则表达式:

/\s/g

四十三、非空白符 \S

\S 匹配除空白符之外的字符。

字符串:

abcABC123 .:!?

正则表达式:

/\S/g

四十四、零断宽言

如果我们希望正在写的词语出现在另一个词语之前或之后,我们需要使用「零断宽言」。请前往下一步骤,学习如何使用「零断宽言」。

四十五、正向先行断言: (?=)

例如,我们要匹配文本中的小时值。为了只匹配后面有 PM 的数值,我们需要在表达式后面使用正向先行断言 (?=),并在括号内的 = 后面添加 PM。

字符串:

Date: 4 Aug 3PM

正则表达式:

/\d+(?=PM)/g

四十六、负向先行断言: (?!)

例如,我们要在文本中匹配除小时值以外的数字。我们需要在表达式后面使用负向先行断言 (?!),并在括号内的 ! 后面添加 PM,从而只匹配没有 PM 的数值。

字符串:

Date: 4 Aug 3PM

正则表达式:

/\d+(?!PM)/g

四十七、正向后行断言: (?<=)

例如,我们要匹配文本中的金额数。为了只匹配前面带有 的数字。我们要在表达式前面使用正向后行断言(?<=),并在括号内的=后面添加 的数字。我们要在表达式前面使用正向后行断言 (?<=),并在括号内的 = 后面添加 \\

字符串:

Product Code: 1064 Price: $5

正则表达式:

/(?<=\$)\d+/g

四十八、负向后行断言: (?

例如,我们要在文本中匹配除价格外的数字。为了只匹配前面没有 的数字,我们要在表达式前用负向后行断言(?<!),并在括号内的!后面添加 的数字,我们要在表达式前用负向后行断言 (?<!),并在括号内的 ! 后面添加 \\

字符串:

Product Code: 1064 Price: $5

正则表达式:

/(?<!\$)\d+/g

四十九、标志

标志改变表达式的输出。这就是标志也称为 修饰符 的原因。标志决定表达式是否将文本视作单独的行处理,是否区分大小写,或者是否查找所有匹配项。请继续下一步步骤以学习标志。

五十、全局标志

全局标志使表达式选中所有匹配项,如果不启用全局标志,那么表达式只会匹配第一个匹配项。现在,请启用全局标志,以便匹配所有匹配项。

字符串:

domain.com, test.com, site.com

正则表达式:

/\w+\.com/g

五十一、多行标志

正则表达式将所有文本视作一行。但如果我们使用了多行标志,它就会单独处理每一行。这次,我们将根据每一行行末的规律来写出表达式,现在,请启用多行标志来查找所有匹配项。(这里我插一句,m 其实就是 Multiline 的意思。)

字符串:

domain.com
test.com
site.com

正则表达式:

/\w+\.com$/gm

五十二、忽略大小写标志

为了使我们编写的表达式不再大小写敏感,我们必须启用不区分大小写标志。(i, 即 ignore)

字符串:

DOMAIN.COM
TEST.COM
SITE.COM

正则表达式:

/\w+\.com$/gmi

五十三、贪婪匹配

正则表达式默认执行贪婪匹配。这意味着匹配内容会尽可能长。请看下面的示例,它匹配任何以 r 结尾的字符串,以及前面带有该字符串的文本,但它不会在第一个 r 处停止匹配。

字符串:

ber beer beeer beeeer

正则表达式:

/.*r/

五十四、懒惰匹配

与贪婪匹配不同,懒惰匹配在第一次匹配时停止。下面的例子中,在 * 之后添加 ?,将查找以 r 结尾且前面带有任意字符的第一个匹配项。这意味着本次匹配将会在第一个字母 r 处停止。

字符串:

ber beer beeer beeeer

正则表达式:

/.*?r/

五十五、恭喜,您已完成所有步骤!