LeetCode刷题笔记:10. 正则表达式匹配

72 阅读4分钟

题目描述

给你一个字符串 s 和一个字符规律 p,请你来实现一个支持 '.' 和 '*' 的正则表达式匹配。

  • '.' 匹配任意单个字符
  • '*' 匹配零个或多个前面的那一个元素

所谓匹配,是要涵盖 整个 字符串 s的,而不是部分字符串。

示例 1:

输入: s = "aa", p = "a"
输出: false
解释: "a" 无法匹配 "aa" 整个字符串。

示例 2:

输入: s = "aa", p = "a*"
输出: true
解释: 因为 '*' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此,字符串 "aa" 可被视为 'a' 重复了一次。

示例 3:

输入: s = "ab", p = ".*"
输出: true
解释: ".*" 表示可匹配零个或多个('*')任意字符('.')。

提示:

  • 1 <= s.length <= 20
  • 1 <= p.length <= 20
  • s 只包含从 a-z 的小写字母。
  • p 只包含从 a-z 的小写字母,以及字符 . 和 *
  • 保证每次出现字符 * 时,前面都匹配到有效的字符

解题过程

起初考虑使用顺序匹配的思路解题,但是十分复杂,最终没有AC,于是在官解的提示下使用动态规划算法。

解题思路

定义变量及状态,m、n分别表示s、p的长度,i、j分别为指向s、p中字符的指针。

布尔型数组matches用于记录s、p中字符的匹配状态,具体为:matches[i][j]表示子串s[0 ~ i]与子串p[0 ~ j]相匹配的情况(注意是从0开始到i、j的子串,不是单个字符!)。

假设s、p都以空字符串作为开头,将matches[0][j]与matches[i][0]用于存储s、p中空字符串的匹配状态,而s、p中真正存在的非空字符串则存储在matches[1][j]与matches[i][1]中,因此matches的大小为(m+1)*(n+1)。

对于s、p中的空字符串,有以下几种情况:

  • s为空,若p为空,则可以匹配;若p不为空,则可能匹配,如p为"a*";
  • p为空,若s为空,则可以匹配;若s不为空,则不能匹配。

由于i、j为0的位置用于存储以上空字符串的匹配状态,因此非空字符串的匹配状态需要从i=1、j=1开始存储,即matches[i][j]用于存储s[0 ~ i-1]与p[0 ~ j-1]的匹配状态。

对于非空字符,有以下几种情况:

  • p[j-1]为'a'~'z',若s[i-1] == p[j-1],则看s[0 ~ i-2]与p[0 ~ j-2]的匹配状态,即matches[i][j] = matches[i-1][j-1],否则matches[i][j] = false;
  • p[j-1]为'.',则看s[0 ~ i-2]与p[0 ~ j-2]的匹配状态,即matches[i][j] = matches[i-1][j-1];
  • p[j-1]为'*',则看s[i-1]与p[j-2]相等,或p[j-2] == '.',若是,则看s[0 ~ i-2]与p[0 ~ j-1]的匹配状态,即matches[i][j] = matches[i-1][j];若否,则跳过该字母与'*'的组合,看s[0 ~ i-1]与p[0 ~ j-3]的匹配状态(继承s[0 ~ i-1]在该字母与'*'的组合之前的匹配状态),即matches[i][j] = matches[i][j-2]。

最终匹配结果为matches[m][n]。

根据以上分析,我们设计以下代码:

最终代码

public boolean isMatch(String s, String p) {
    int m = s.length(), n = p.length();
    // 用于存储匹配状态
    boolean[][] matches = new boolean[m + 1][ n + 1];
    // s与p的空字符可以匹配
    matches[0][0] = true;
    // 因s的空字符串与p的非空字符串可能匹配,需要动态规划计算,故i0开始
    for (int i = 0; i <= m; i++) {
        // p的空字符串与与s的任何非空字符串都不匹配,因此j=0的位置全部存储默认值false,不需要计算,故j直接从1开始
        for (int j = 1; j <= n; j++) {
            // p[j-1]为字母或'.'的情况
            if (p.charAt(j - 1) != '*') {
                // 此时若单个字符能够匹配,则匹配结果与s、p前一子串的匹配结果相同
                if (i > 0 && (s.charAt(i - 1) == p.charAt(j - 1) || p.charAt(j - 1) == '.')) {
                    matches[i][j] = matches[i - 1][j - 1];
                }
            // p[j-1]为'*'的情况
            } else {
                // s[i-1]与'*'前的字符能够匹配,则匹配结果与s前一子串与p当前子串的匹配结果相同
                if (i > 0 && j > 1 && (s.charAt(i - 1) == p.charAt(j - 2) || p.charAt(j - 2) == '.')) {
                    matches[i][j] = matches[i - 1][j];
                }
                // 若s[i-1]与'*'前的字符不能匹配,则停止s当前子串与p中当前字母与'*'组合的匹配,匹配结果继承s当前子串与p中当前字母与'*'组合之前的子串的匹配结果
                // 此处增设的if是为了接收i==0的情况,使用|=是为了已经进入上一个if中的匹配结果在这个if中不受影响
                if (j > 1) {
                    matches[i][j] |= matches[i][j - 2];
                }
            }
        }
    }
    // 最终匹配结果为matches[m][n]
    return matches[m][n];
}