1668. 最大重复子字符串 : 运用「字符串哈希」优化「序列 DP」(总结两类 DP 区别)

1,150 阅读4分钟

题目描述

这是 LeetCode 上的 1668. 最大重复子字符串 ,难度为 简单

Tag : 「动态规划」、「序列 DP」、「字符串哈希」

给你一个字符串 sequence,如果字符串 word 连续重复 k 次形成的字符串是 sequence 的一个子字符串,那么单词 word 的 重复值为 k

单词 word 的 最大重复值 是单词 word 在 sequence 中最大的重复值。如果 word 不是 sequence 的子串,那么重复值 k 为 0

给你一个字符串 sequence 和 word ,请你返回 最大重复值 k

示例 1:

输入:sequence = "ababc", word = "ab"

输出:2

解释:"abab""ababc" 的子字符串。

示例 2:

输入:sequence = "ababc", word = "ba"

输出:1

解释:"ba""ababc" 的子字符串,但 "baba" 不是 "ababc" 的子字符串。

示例 3:

输入:sequence = "ababc", word = "ac"

输出:0

解释:"ac" 不是 "ababc" 的子字符串。

提示:

  • 1<=sequence.length<=1001 <= sequence.length <= 100
  • 1<=word.length<=1001 <= word.length <= 100
  • sequence 和 word 都只包含小写英文字母。

序列 DP

为了方便,我们记 sequencess,记 wordpp,将两者长度分别记为 nm

同时我们调整「字符串」以及「将要用到的动规数组」的下标从 11 开始。

这是一道入门级的「序列 DP」运用题,容易想到 定义 f[i]f[i] 为了考虑以 ss[i] 结尾时的最大重复值

不失一般性考虑 f[i]f[i] 该如何转移:由于 pp 的长度已知,每次转移 f[i]f[i] 时我们可以从 ss 中截取 ss[i]ss[i] 为结尾,长度为 mm 的后缀字符串 sub 并与 pp 匹配,若两者相等,说明 sub 贡献了大小为 11 的重复度,同时该重复度可累加在 f[im]f[i - m] 上(好好回想我们的状态定义),即有状态转移方程:f[i]=f[im]+1f[i] = f[i - m] + 1

最终所有 f[i]f[i] 的最大值即为答案。

Java 代码:

class Solution {
    public int maxRepeating(String ss, String pp) {
        int n = ss.length(), m = pp.length(), ans = 0;
        int[] f = new int[n + 10];
        for (int i = 1; i <= n; i++) {
            if (i - m < 0) continue;
            if (ss.substring(i - m, i).equals(pp)) f[i] = f[i - m] + 1;
            ans = Math.max(ans, f[i]);
        }
        return ans;
    }
}

TypeScript 代码:

function maxRepeating(ss: string, pp: string): number {
    let n = ss.length, m = pp.length, ans = 0
    const f = new Array<number>(n + 10).fill(0)
    for (let i = 1; i <= n; i++) {
        if (i - m < 0) continue
        if (ss.substr(i - m, i) == pp) f[i] = f[i - m] + 1
        ans = Math.max(ans, f[i])
    }
    return ans
}

Python 代码:

class Solution:
    def maxRepeating(self, ss: str, pp: str) -> int:
        n, m, ans = len(ss), len(pp), 0
        f = [0] * (n + 10)
        for i in range(1, n + 1):
            if i - m < 0:
                continue
            if ss[i - m:i] == pp:
                f[i] = f[i - m] + 1
            ans = max(ans, f[i])
        return ans
  • 时间复杂度:O(n×m)O(n \times m)
  • 空间复杂度:O(n)O(n)

字符串哈希

解法一的转移瓶颈在于:每次需要花费 O(m)O(m) 的复杂度来生成子串,并进行字符串比较。

该过程可用「字符串哈希」进行优化:将 sspp 进行拼接得到完整字符串,并计算完整字符串的哈希数组和次方数组。随后从前往后检查 ss,若「某个以 ss[i]ss[i] 结尾长度为 m 的后缀字符串哈希值」与「 pp 字符串的哈希值」相等,说明找到了前驱状态值 f[im]f[i - m],可进行转移。

我们通过 O(n+m)O(n + m) 复杂度预处理了字符串哈希,将转移过程中「复杂度为 O(m)O(m) 的子串截取与字符串比较」替换成了「复杂度为 O(1)O(1) 的数值对比」,整体复杂度从 O(n×m)O(n \times m) 下降到 O(n+m)O(n + m)

不了解「字符串哈希」的同学可见前置 🧀 : 字符串哈希入门。里面详解字符串哈希基本原理以及哈希冲突简单处理方式

Java 代码:

class Solution {
    public int maxRepeating(String ss, String pp) {
        int n = ss.length(), m = pp.length(), ans = 0;
        int[] f = new int[n + 10];

        String s = ss + pp;
        int P = 1313131, N = s.length();
        long[] h = new long[N + 10], p = new long[N + 10];
        p[0] = 1;
        for (int i = 1; i <= N; i++) {
            h[i] = h[i - 1] * P + s.charAt(i - 1);
            p[i] = p[i - 1] * P;
        }
        long phash = h[N] - h[N - m] * p[m];
        
        for (int i = 1; i <= n; i++) {
            if (i - m < 0) continue;
            long cur = h[i] - h[i - m] * p[m];
            if (cur == phash) f[i] = f[i - m] + 1;
            ans = Math.max(ans, f[i]);
        }
        return ans;
    }
}

Python 代码:

class Solution:
    def maxRepeating(self, ss: str, pp: str) -> int:
        n, m, ans = len(ss), len(pp), 0
        f = [0] * (n + 10)

        s = ss + pp
        P, N, MOD = 131, len(s), 987654321
        h, p = [0] * (N + 10), [0] * (N + 10)
        p[0] = 1
        for i in range(1, N + 1):
            h[i] = (h[i - 1] * P + ord(s[i - 1])) % MOD
            p[i] = (p[i - 1] * P) % MOD
        phash = (h[N] - h[N - m] * p[m]) % MOD

        for i in range(1, n + 1):
            if i - m < 0:
                continue
            cur = (h[i] - h[i - m] * p[m]) % MOD
            if cur == phash:
                f[i] = f[i - m] + 1
            ans = max(ans, f[i])
        return ans
  • 时间复杂度:O(n+m)O(n + m)
  • 空间复杂度:O(n+m)O(n + m)

总结

这里简单说下「线性 DP」和「序列 DP」的区别。

线性 DP 通常强调「状态转移所依赖的前驱状态」是由给定数组所提供的,即拓扑序是由原数组直接给出。更大白话来说就是通常有 f[i][...]f[i][...] 依赖于 f[i1][...]f[i - 1][...]

这就限定了线性 DP 的复杂度是简单由「状态数量(或者说是维度数)」所决定。

序列 DP 通常需要结合题意来寻找前驱状态,即需要自身寻找拓扑序关系(例如本题,需要自己结合题意来找到可转移的前驱状态 f[im]f[i - m])。

这就限定了序列 DP 的复杂度是由「状态数 + 找前驱」的复杂度所共同决定。也直接导致了序列 DP 有很多玩法,往往能够结合其他知识点出题,来优化找前驱这一操作,通常是利用某些性质,或是利用数据结构进行优化。

最后

这是我们「刷穿 LeetCode」系列文章的第 No.1668 篇,系列开始于 2021/01/01,截止于起始日 LeetCode 上共有 1916 道题目,部分是有锁题,我们将先把所有不带锁的题目刷完。

在这个系列文章里面,除了讲解解题思路以外,还会尽可能给出最为简洁的代码。如果涉及通解还会相应的代码模板。

为了方便各位同学能够电脑上进行调试和提交代码,我建立了相关的仓库:github.com/SharingSour…

在仓库地址里,你可以看到系列文章的题解链接、系列文章的相应代码、LeetCode 原题链接和其他优选题解。

更多更全更热门的「笔试/面试」相关资料可访问排版精美的 合集新基地 🎉🎉