【小知识】Python 正则表达式语法前言在日常生活中我们是否出现以下场景：对于刚接手的项目时，通常我们会先熟悉项目

小知识，大挑战！本文正在参与“程序员必备小知识”创作活动。

本文已参与「掘力星计划」，赢取创作大礼包，挑战创作激励金。

前言

在日常生活中我们是否出现以下场景：

除了在日常生活中，我们大量使用匹配的原则外，那么我们在工作场景中，也存在大量的匹配筛选的场景

匹配筛选目前适用场景主要分为：静态文本、动态文本

本期，我们来对正则表达式进行系统了解和学习，Let‘s go~

正则表达式（Regular Expression 简写regex）是一种用于字符串匹配模式，通过定义一串特殊规则去匹配符合的字符。

正则表达式起源

正则表达式特点：

正则表达式常用的网站

正则表达式规则主要由五个方面组成

合法字符 | 字符 | 说明 | --- | --- | | X | 字符x(x可代表任意合法的字符) | \uhhhh | 十六进制0xhhhh所表达Unicode字符 | \t | 制表符 | \n | 换行符 | \r | 回车符 | \f | 换页符 | \a | 报警（bell）符 | \e | Escape字符 | \cx | x 对应的控制符
边界匹配符 | 边界匹配符 | 说明 | --- | --- | | ^ | 行的开头 | $ | 行的结尾 | \b | 单词的边界。即只能匹配单词前后的空白 | \B | 非单词的边界，即只能匹配不在单词前后的空白 | \A | 只匹配字符串的开头 | \Z | 只匹配字符串的结尾，仅拥用于最后的结束符
区间 | 方括号表达式 | 说明 | --- | --- | | [0-9] | 表示0～9任意数字 | [a-z] | 表示a～z任意字母 | [adcd] | 表示a,d,c,d其中任意一个字符 | [^adc] | 表示非a,b,c的任意字符

正则引擎主要可以分三大类：

DFA 与 NFA 的特点：

相同点：
1. 都是从左到右开始进行匹配
2. 量词（*，+，{}）不加？的时候被忽略，默认匹配有优先
异同点：
- DFA：文本导向
  1. 不支持回溯和捕获，匹配时以目标字符为导向
  2. 匹配之前，系统会对字符串进行分析和理解
  3. 匹配时，系统会对目标字符串从左到右进行扫描一次，同时尝试匹配多个分支，依次淘汰，无需再对目标字符串进行回溯
  4. 最后返回结果是一个目标字符串里面的最长匹配
  我们来看一下，DFA引擎的工作原理流程：
- NFA：字符回溯
  1. 对目标字符串支持回溯和捕获
  2. 匹配时，以遍历的方式进行匹配
  3. 先尝试第一个分支进行匹配，如果匹配成功，则结束匹配，返回匹配结果
  4. 如果匹配不成功，则继续进行下一个分支匹配（ NFA 回溯功能）
  *我们来看一下，NFA引擎的工作原理流程：

DFA 与 NFA 优缺点对比：

引擎	功能	速度	编译	使用者
DFA	少	快	预编译：优化效果显著；编译：内存大且慢	MYSQL、flex
NFA	多	慢	预编译：优化复杂；编译：内存占比小且快	PHP，JAVA、Python等｜

我们大多数语言正则表达式都是使用NFA引擎的。经过上面的学习，我们知道NFA匹配查询比较慢，因此在日常工作使用时，我们可以根据以下方面进行优化使用：

本期，我们主要对正则表达式语法进行全面的了解和掌握，同时也对正则使用的引擎工作流程进行介绍。

正则表达式以语法简单、上手快的优势，能快速为我们替代一些日常复杂的查询检查步骤。

正所谓，一日练,一日功,一日不练十日空，大家平时多多使用起来～

以上是本期内容，欢迎大佬们评论点赞，我们下次见～