青训营刷题日记4| 豆包MarsCode AI刷题

55 阅读4分钟

找出最大UCC子串

问题描述

小S有一个由字符 'U' 和 'C' 组成的字符串 S,并希望在编辑距离不超过给定值 m 的条件下,尽可能多地在字符串中找到 "UCC" 子串。编辑距离定义为将字符串 S 转化为其他字符串时所需的最少编辑操作次数。允许的每次编辑操作是插入、删除或替换单个字符。你需要计算在给定的编辑距离限制 m 下,能够包含最多 "UCC" 子串的字符串可能包含多少个这样的子串。

示例

  • 样例1

    • 输入:m = 3, s = "UCUUCCCCC"
    • 输出:3
    • 解释:可以将字符串修改为 "UCCUCCUCC"(2 次替换操作,不超过给定值 m = 3),包含 3 个 "UCC" 子串。
  • 样例2

    • 输入:m = 6, s = "U"
    • 输出:2
    • 解释:后面插入 5 个字符 "CCUCC"(5 次插入操作,不超过给定值 m = 6),可以将字符串修改为 "UCCUCC",包含 2 个 "UCC" 子串。
  • 样例3

    • 输入:m = 2, s = "UCCUUU"
    • 输出:2
    • 解释:替换最后 2 个字符,可以将字符串修改为 "UCCUCC",包含 2 个 "UCC" 子串。

动态规划解法

为了找到最大数量的 "UCC" 子串,我们可以使用动态规划的方法。具体步骤如下:

  1. 初始化动态规划数组

    • dp[i][e] 表示前 i 个字符编辑 e 次后得到的 "UCC" 子串的数量。
    • 初始状态 dp[0][0] = 0,表示空字符串不需要任何编辑操作。
  2. 第一次动态规划

    • 计算从每个字符开始,为了匹配 "UCC" 产生的最小编辑距离和匹配成功时的长度。
    • 使用一个辅助数组 match_info 来存储从每个位置开始匹配 "UCC" 的最小编辑距离和匹配长度。
  3. 主过程的动态规划

    • 遍历字符串的每一个字符,对于每一个字符,考虑保留、删除和插入操作。
    • 如果当前字符可以匹配到 "UCC",则更新 dp 数组。
  4. 找到最大匹配数量

    • 遍历所有可能的编辑次数,找到最大的 "UCC" 子串数量。

代码实现

def solution(m: int, s: str) -> int:
    n = len(s)
    dp = [[-1] * (m + 1) for _ in range(n + 1)]  # dp[i][e]:前i个字符编辑e次得到的’UCC'子串数量
    dp[0][0] = 0 

    # 第一次动态规划
    # 计算从每个字符开始,为了匹配 "UCC" 产生的最小编辑距离和匹配成功时的长度
    # 每个字符的计算过程都是dp
    match_info = [[] for _ in range(n)]  # match_info[i] = 从s[i]开始,匹配“UCC”的(最小编辑距离,匹配成功时的长度) 
    for i in range(n):
        max_len = min(n - i, 3 + m)  # 从当前字符s[i]开始,匹配成功时可能达到的最大长度
        # 从当前字符s[i]开始,匹配 "UCC" 的最小编辑距离
        dp_match = [[float('inf')] * (max_len + 1) for _ in range(4)] 
        dp_match[0][0] = 0
        for p in range(4):  # 从s[i]开始匹配"UCC" 的进度:‘’->‘U'->'UC'->'UCC’
            for q in range(max_len + 1):  # 匹配过程中划过的长度 = 0,1,...,max_len
                if dp_match[p][q] > m:  # 编辑次数用完了
                    continue
                if p < 3 and q < max_len:  # 保留/替换
                    cost = 0 if s[i + q] == 'UCC'[p] else 1
                    dp_match[p + 1][q + 1] = min(dp_match[p + 1][q + 1], dp_match[p][q] + cost)
                if p < 3:  # 插入
                    dp_match[p + 1][q] = min(dp_match[p + 1][q], dp_match[p][q] + 1)
                if q < max_len:  # 删除
                    dp_match[p][q + 1] = min(dp_match[p][q + 1], dp_match[p][q] + 1)
        # 统计
        for q in range(max_len + 1):
            c = dp_match[3][q]
            match_info[i].append((c, q))  # (编辑距离,匹配长度)

    # 主过程的动态规划:
    for i in range(n + 1):
        for e in range(m + 1):
            if dp[i][e] == -1:
                continue
            if i < n:  # 不尝试匹配 "UCC" --> 直接跳过/删除当前字符
                dp[i + 1][e] = max(dp[i + 1][e], dp[i][e])  # 保留
                if e + 1 <= m:  # 删除
                    dp[i + 1][e + 1] = max(dp[i + 1][e + 1], dp[i][e])            
            if i < n and match_info[i]: # 尝试匹配
                for c, l in match_info[i]:  # 从当前字符串开始匹配‘UCC’的(最小编辑距离,匹配成功时长度)
                    if e + c <= m and i + l <= n:
                        dp[i + l][e + c] = max(dp[i + l][e + c], dp[i][e] + 1)

    # 找到最大匹配数量
    max_substrings = 0
    for e in range(m + 1):
        max_substrings = max(max_substrings, dp[n][e])
    return max_substrings
    

个人思考与分析

通过上述代码,我们实现了一个动态规划算法来解决找出最大 "UCC" 子串的问题。该算法的核心思想是通过动态规划记录每一步的最优解,从而在有限的编辑次数内找到最多的 "UCC" 子串。这种方法的时间复杂度和空间复杂度都较高,但在给定的约束条件下是可行的。

在实际使用中,可以根据具体需求对算法进行优化,例如减少不必要的计算或者使用更高效的数据结构来存储中间结果。此外,还可以通过测试更多的边界情况来验证算法的正确性和鲁棒性。