正则表达式的工作原理

正则表达式处理的基本步骤：

（1）编译

（2）设置起始位置

（3）匹配每个正则表达式字元

（4）匹配成功或失败

回溯

回溯是匹配过程的基础组成部分，是正则表达式如此强大且富有表达力的根源，但是回溯会产生昂贵的计算能耗。

百度百科定义：

回溯是计算机算法，回溯法也称试探法，它的基本思想是：从问题的某一种状态（初始状态）出发，搜索从这种状态出发所能达到的所有“状态”，当一条路走到“尽头”的时候（不能再前进），再后退一步或若干步，从另一种可能“状态”出发，继续搜索，直到所有的“路径”（状态）都试探过。这种不断“前进”、不断“回溯”寻找解的方法，就称作“回溯法”。

正则表达式也是这种匹配过程，从左到右逐个测试表达式的组成部分，看是否能匹配到目标字符串。在遇到量词（*， +？等）时决定何时尝试匹配更多字符，遇到分支时（|）必须从可选项中的下一个字符，再重复此过程。

回溯失控

当正则表达式导致浏览器假死，很可能是因为回溯失控。

解决方案：具体化

解决方案是尽可能具体化分隔符之间的字符串匹配模式，比如. * ?,它用来匹配一个由双引号包围的字符串，这样就可以去除回溯时可能发生的几种情况，比如尝试用点好匹配引号或扩展搜索超出预期范围。

性能提升：正则表达式的优化

正则表达式的工作原理

回溯

回溯失控

更多提高表达式效率的方法

关注如何让匹配更快失败

正则表达式以简单、必需的字元开始

使用量词模式，使他们后面的字元互斥

使用非捕获组

只捕获感兴趣的文本减少后期处理

将浮在的正则表达式拆分为简单的片段（化繁为简）