背景

昨天无意中看到一篇大佬的文章Primality regex（正则表达式判断质数），惊为天人，正则表达式也能用来判断质数了？立马来研究下

示例

perl -wle 'print "Prime" if (1 x shift) !~ /^1?$|^(11+?)\1+$/' [number]

翻译成JS代码如下

function isPrime(n) {
    return !/^1?$|^(11+?)\1+$/.test("1".repeat(n))
}

代码逻辑非常简单，生成"1" * n长度的字符串，通过/^1?$|^(11+?)\1+$/正则表达式进行判断，再将结果取反

正则分析

/^1?$|^(11+?)\1+$/

上面正则表达式有2个分支，分别是

/^1?$
^(11+?)\1+$

分支1 逻辑很简单，就是匹配0或者1个 "1"，因为要排除数字1（非质数）

分支2 就有意思了，可以拆成2块来看

^(11+?)
\1+$ 表达式1，非贪婪模式下匹配 "11" "111" "1111"....，作为一个分组
表达式2，\1代表将表达式1匹配的结果赋值给\1，判断是否结尾，否的话会触发回溯（因为表达式1可能匹配多种情况）

举个例子就更清晰了，比如传入n = 9，分支1不满足可以直接忽略
^(11+?)\1+$

|步骤|匹配结果 | 说明 | |--- ||--- |--- | |step 1|1 1 1 1 1 1 1 1 1| (11+?)匹配到"11" | |step 2|1 1 1 1 1 1 1 1 1| 分组结果赋值给\1，那么正则就变成 "11"+ $，继续匹配剩余的字符(7个"1") | |step 3|**1 1 1 1 1 1 1 1** 1| 再重复3轮的匹配，发现剩余一个"1"，不满足$ ，进行回溯 | |step 4|1 1 1 1 1 1 1 1 1| 还是不满足 $，继续回溯 | |step 5|**1 1 1** 1 1 1 1 1 1| 一直回溯到`step 1`，`(11+?)`匹配到`"111"` | |step 6|**1 1 1** 1 1 1 1 1 1| 分组结果赋值给`\1`，那么正则就变成 "111"+$ ，继续匹配剩余的字符(6个"1") | |step 7|1 1 1 1 1 1 1 1 1| 再重复2轮的匹配，满足$，匹配成功 |

原理

经过上述的分析，不难发现，其实回溯就是将数字不断除于2、3、4....，最后检查是否有余数，没有的话就匹配成功（非质数），非常简单粗暴的穷举法

优化空间

仔细看正则匹配的过程分析，其实step 3 ~ step 4的回溯完全没有必要，那么正则可以改写成这样/^1?$|^(11+?)\1+?$/，将\1+改成非贪婪模式\1+?，那么就放弃step 4回溯

性能测试

console.time('优化前')
console.log(!/^1?$|^(11+?)\1+$/.test("1".repeat(33331)));
console.timeEnd('优化前')

console.time('优化后')
console.log(!/^1?$|^(11+?)\1+?$/.test("1".repeat(33331)));
console.timeEnd('优化后')

// true
// 优化前: 227.9189453125 ms
// true
// 优化后: 155.797119140625 ms

耗时上减少了接近一半

总结

其实这个正则性能非常差（穷举法），实用性不高，但是思路很让人惊艳

一行正则表达式判断质数

背景

示例

正则分析

原理

优化空间

性能测试

总结