不同子序列计数问题 | 豆包MarsCode AI刷题

83 阅读4分钟

动态规划在计算字符串不同非空子序列中的应用

引言

在计算机科学中,动态规划(Dynamic Programming, DP)是一种通过将复杂问题分解为更简单的子问题来解决的方法。它通常用于优化问题,其中问题的解决方案可以通过组合子问题的解决方案来构建。本文将探讨如何使用动态规划来计算一个字符串的所有不同非空子序列的个数。

问题描述

给定一个字符串 s,我们需要计算该字符串的所有不同非空子序列的个数。子序列是通过删除原字符串中的部分字符(也可以不删除),且保持剩余字符的相对顺序形成的新字符串。例如,字符串 "abc" 的所有不同非空子序列包括 "a", "b", "c", "ab", "ac", "bc", 和 "abc",总数为 7。

动态规划的基本思想

动态规划的核心思想是将问题分解为一系列重叠的子问题,并通过存储子问题的解来避免重复计算。对于字符串的不同非空子序列问题,我们可以定义一个状态数组 dp,其中 dp[i] 表示前 i 个字符形成的不同非空子序列的个数。

状态定义与转移

  1. 状态定义

    • dp[i] 表示前 i 个字符形成的不同非空子序列的个数。
  2. 状态转移

    • 对于每个字符 s[i],我们需要考虑它是否与之前的子序列组合形成新的子序列。
    • 如果 s[i] 是第一次出现,那么它可以与之前的所有子序列组合形成新的子序列。
    • 如果 s[i] 之前已经出现过,那么它只能与之前未包含 s[i] 的子序列组合形成新的子序列。
  3. 初始化

    • dp[0] = 1,表示空字符串的子序列个数为 1(虽然题目要求非空子序列,但初始化时需要考虑空字符串的情况)。
  4. 最终结果

    • 最终结果是 dp[n] - 1,其中 n 是字符串的长度,减去 1 是因为要去掉空字符串的情况。
  5. 取模

    • 由于结果可能非常大,需要对 10^9 + 7 取模。

代码实现

以下是使用动态规划解决该问题的 Python 代码实现:

def solution(s: str) -> int:
    MOD = 10**9 + 7
    n = len(s)
    dp = [0] * (n + 1)
    last = {}
    
    dp[0] = 1  # 空字符串的子序列个数为1
    
    for i in range(1, n + 1):
        dp[i] = (2 * dp[i - 1]) % MOD
        if s[i - 1] in last:
            dp[i] = (dp[i] - dp[last[s[i - 1]] - 1] + MOD) % MOD
        last[s[i - 1]] = i
    
    return (dp[n] - 1 + MOD) % MOD

if __name__ == '__main__':
    print(solution("abc") == 7)
    print(solution("aaa") == 3)
    print(solution("abcd") == 15)
    print(solution("abac") == 13)

代码解释

  1. 初始化

    • dp[0] = 1,表示空字符串的子序列个数为 1。
  2. 状态转移

    • 对于每个字符 s[i],我们首先假设它可以与之前的所有子序列组合形成新的子序列,因此 dp[i] = 2 * dp[i - 1]
    • 如果 s[i] 之前已经出现过(即 s[i] in last),我们需要减去之前包含 s[i] 的子序列的个数,即 dp[i] = dp[i] - dp[last[s[i - 1]] - 1]
    • 最后,我们将 dp[i]10^9 + 7 取模,以防止溢出。
  3. 最终结果

    • 最终结果是 dp[n] - 1,其中 n 是字符串的长度,减去 1 是因为要去掉空字符串的情况。

复杂度分析

  • 时间复杂度O(n),其中 n 是字符串的长度。我们只需要遍历字符串一次。
  • 空间复杂度O(n),我们需要一个长度为 n + 1 的数组 dp 来存储中间结果,以及一个字典 last 来记录每个字符最后一次出现的位置。

总结

动态规划是一种强大的工具,可以有效地解决许多优化问题。通过将问题分解为子问题并存储中间结果,我们可以避免重复计算,从而提高算法的效率。在计算字符串的不同非空子序列的问题中,动态规划提供了一种优雅且高效的解决方案。通过合理的状态定义和状态转移,我们可以在 O(n) 的时间复杂度内解决问题,并处理大规模输入。