刷题学习心得:字符串匹配算法之旅|豆包MarsCode AI刷题

33 阅读7分钟

刷题学习心得:字符串匹配算法之旅

在深入使用豆包和 MarsCode AI 刷题的历程中,字符串匹配算法成为了我重点攻克的领域之一。它犹如一座神秘而充满挑战的山峰,每一步攀登都让我对编程的理解和运用能力得到提升。

一、题目解析:实现 strStr () 函数

思路

该题目要求在一个主字符串 haystack 中查找子字符串 needle 首次出现的位置。一种经典的解法是使用暴力匹配算法。其思路简单直接:从主字符串的起始位置开始,依次将主字符串中的子串与目标子字符串进行逐个字符的比较。如果在某一位置匹配成功,则返回该位置;若在当前起始位置开始的比较过程中出现不匹配,则将主字符串的起始位置向后移动一位,继续重复上述比较过程,直到遍历完主字符串或者找到匹配的子字符串。

然而,暴力匹配算法在最坏情况下的时间复杂度较高,为 ,其中  是主字符串的长度, 是子字符串的长度。因此,为了提高效率,我们可以引入更优化的算法,如 KMP(Knuth-Morris-Pratt)算法。KMP 算法的核心思想是利用已经匹配过的信息,通过预处理子字符串得到一个部分匹配表(next 数组),在匹配过程中,当出现不匹配时,可以根据 next 数组快速移动主字符串的指针,避免了不必要的回溯,从而将时间复杂度降低到 。

图解

以暴力匹配算法为例,假设有主字符串 haystack = "BBC ABCDAB ABCDABCDABDE" 和子字符串 needle = "ABCDABD"

  • 首先,从主字符串的第一个字符 B 开始,与子字符串的第一个字符 A 比较,不匹配。
  • 然后,主字符串指针后移一位,从第二个字符 B 开始,再次与子字符串的第一个字符 A 比较,不匹配。
  • 依此类推,当主字符串指针移动到第 4 位时,开始的子串 "ABCD" 与子字符串 "ABCDABD" 的前 4 个字符匹配成功,但接下来主字符串的第 8 位字符 D 与子字符串的第 5 位字符 B 不匹配。此时,按照暴力匹配算法,主字符串指针回溯到第 5 位,子字符串指针重新回到第 0 位,继续比较。
  • 而对于 KMP 算法,在预处理子字符串得到 next 数组后,当上述不匹配情况发生时,主字符串指针不需要回溯,而是根据 next 数组的值直接移动子字符串指针,然后继续比较,大大提高了匹配效率。

代码详解(Java)

public class StrStr {
    // 暴力匹配算法实现
    public static int strStrBruteForce(String haystack, String needle) {
        int m = haystack.length();
        int n = needle.length();
        for (int i = 0; i <= m - n; i++) {
            int j;
            for (j = 0; j < n; j++) {
                if (haystack.charAt(i + j)!= needle.charAt(j)) {
                    break;
                }
            }
            if (j == n) {
                return i;
            }
        }
        return -1;
    }

    // KMP 算法实现
    public static int strStrKMP(String haystack, String needle) {
        int m = haystack.length();
        int n = needle.length();
        if (n == 0) {
            return 0;
        }
        // 构建 next 数组
        int[] next = new int[n];
        getNext(needle, next);
        int i = 0, j = 0;
        while (i < m && j < n) {
            if (j == -1 || haystack.charAt(i) == needle.charAt(j)) {
                i++;
                j++;
            } else {
                j = next[j];
            }
        }
        if (j == n) {
            return i - j;
        }
        return -1;
    }

    private static void getNext(String needle, int[] next) {
        int j = 0, k = -1;
        next[0] = -1;
        while (j < needle.length() - 1) {
            if (k == -1 || needle.charAt(j) == needle.charAt(k)) {
                j++;
                k++;
                next[j] = k;
            } else {
                k = next[k];
            }
        }
    }

    public static void main(String[] args) {
        String haystack = "BBC ABCDAB ABCDABCDABDE";
        String needle = "ABCDABD";
        int bruteForceResult = strStrBruteForce(haystack, needle);
        int kmpResult = strStrKMP(haystack, needle);
        System.out.println("暴力匹配结果: " + bruteForceResult);
        System.out.println("KMP 匹配结果: " + kmpResult);
    }
}

在上述代码中:

  • strStrBruteForce 方法实现了暴力匹配算法。外层循环遍历主字符串中可能与子字符串匹配的起始位置,内层循环用于逐个字符比较主字符串和子字符串的子串。如果内层循环完整执行完毕(即 j == n),说明找到了匹配的子字符串,返回当前起始位置 i;否则,继续外层循环,尝试下一个起始位置。
  • strStrKMP 方法实现了 KMP 算法。首先处理了子字符串为空的特殊情况,然后调用 getNext 方法构建子字符串的 next 数组。在匹配过程中,通过比较主字符串和子字符串的字符,并根据 next 数组的值移动指针 j,当 j == n 时,表示找到了匹配的子字符串,返回相应位置;若循环结束仍未找到匹配,则返回 -1。
  • getNext 方法用于构建子字符串的 next 数组,通过不断更新指针 j 和 k 的位置,并根据字符匹配情况填充 next 数组的值,为 KMP 算法的匹配过程提供关键信息。

二、知识总结

暴力匹配与优化算法的对比

通过对暴力匹配算法和 KMP 算法的学习,深刻体会到了算法优化的重要性。暴力匹配算法虽然简单易懂,但在处理大规模字符串时效率低下。而 KMP 算法通过巧妙地利用已匹配信息,避免了重复的比较,大大提高了匹配速度。这让我明白在解决问题时,不仅要找到一种可行的解法,更要思考如何优化算法,降低时间和空间复杂度。

部分匹配表(next 数组)的意义

KMP 算法中的 next 数组是其核心所在。它记录了子字符串中每个位置之前的子串的最长公共前后缀长度。这个信息在匹配过程中起到了关键的引导作用,使得当出现不匹配时,能够快速确定子字符串指针的移动位置,减少不必要的比较。理解 next 数组的构建过程和作用,有助于深入掌握 KMP 算法的原理,并且可以启发在其他类似问题中寻找类似的优化策略,如在处理循环字符串匹配等问题时。

字符串匹配算法的应用场景

字符串匹配算法在实际编程中有广泛的应用。例如,在文本编辑器中查找和替换功能、搜索引擎中的关键词匹配、生物信息学中的基因序列比对等领域都离不开字符串匹配算法。了解这些应用场景,可以让我们更加明确学习字符串匹配算法的重要性,并且在实际项目中能够根据具体需求选择合适的算法。

三、学习建议

从基础算法入手,逐步深入

对于字符串匹配算法的学习,建议先从简单的暴力匹配算法开始理解。掌握其基本思路和实现方式,尽管它效率不高,但它是理解更复杂算法的基础。在熟悉暴力匹配后,再深入学习 KMP 算法等优化算法,这样可以更好地理解算法优化的思路和方法,避免一开始就陷入复杂算法的细节而迷失方向。

手动模拟算法过程

在学习字符串匹配算法时,手动模拟算法在具体字符串上的执行过程非常重要。无论是暴力匹配还是 KMP 算法,通过在纸上或者脑海中模拟指针的移动、字符的比较以及 next 数组的构建和使用过程,可以更加直观地感受算法的运行机制,有助于发现其中的规律和细节,加深对算法的理解。

多做练习题,拓展思维

刷题是巩固和拓展字符串匹配算法知识的有效途径。可以在刷题平台上寻找各种类型的字符串匹配题目,包括不同长度和复杂度的字符串、不同的匹配要求等。通过解决这些题目,不仅可以熟练掌握已学的算法,还能遇到一些变形和拓展问题,从而促使自己思考如何灵活运用算法知识,培养创新思维和解决实际问题的能力。

总之,字符串匹配算法的学习是一个充满挑战但又极具收获的过程。通过不断地学习、实践和总结,我在编程能力和算法思维上都取得了显著的进步。希望这些经验和建议能够为其他同学在学习字符串匹配算法的道路上提供有益的参考,帮助大家更好地探索编程世界中的字符串奥秘。