【LeetCode】28. 实现 strStr()

88 阅读1分钟

「这是我参与2022首次更文挑战的第10天,活动详情查看:2022首次更文挑战」。

题目

实现 strStr() 函数。

给你两个字符串 haystackneedle ,请你在 haystack 字符串中找出 needle 字符串出现的第一个位置(下标从 0 开始)。如果不存在,则返回 -1 。

说明:

当 needle 是空字符串时,我们应当返回什么值呢?这是一个在面试中很好的问题。

对于本题而言,当 needle 是空字符串时我们应当返回 0 。这与 C 语言的 strstr() 以及 Java 的 indexOf() 定义相符。

示例 1

输入:haystack = "hello", needle = "ll"
输出:2

示例 2

输入:haystack = "aaaaa", needle = "bba"
输出:-1

示例 3

输入:haystack = "", needle = ""
输出:0

提示

  • 0 <= haystack.length, needle.length <= 5 * 104
  • haystack 和 needle 仅由小写英文字符组成

题解

思路

这一题是经典的字符串单模匹配的模型,因此可以使用字符串匹配算法解决,常见的字符串匹配算法包括暴力匹配、Knuth-Morris-Pratt 算法、Boyer-Moore 算法、Sunday 算法等,这题我使用 Sunday 算法解决。

匹配机制非常容易理解:

  • 目标字符串 String
  • 模式串 Pattern
  • 当前查询索引 idx (初始为 0)
  • 待匹配字符串 str_cut : String [ idx : idx + len(Pattern) ]

每次匹配都会从目标字符串中提取待匹配字符串与模式串进行匹配:

  • 若匹配,则返回当前 idx
  • 不匹配,则查看 待匹配字符串 的后一位字符 c:
    • 若 c 存在于Pattern中,则 idx = idx + 偏移表[c]
    • 否则,idx = idx + len(pattern)

Repeat Loop 直到 idx + len(pattern) > len(String).

注:偏移表的作用是存储每一个在模式串中出现的字符,在模式串中出现的最右位置到尾部的距离 +1。

代码

class Solution:
    def strStr(self, haystack: str, needle: str) -> int:
    
        # Func: 计算偏移表
        def calShiftMat(st):
            dic = {}
            for i in range(len(st)-1,-1,-1):
                if not dic.get(st[i]):
                    dic[st[i]] = len(st)-i
            dic["ot"] = len(st)+1
            return dic
        
        # 其他情况判断
        if len(needle) > len(haystack):return -1
        if needle=="": return 0
       
        # 偏移表预处理    
        dic = calShiftMat(needle)
        idx = 0
    
        while idx+len(needle) <= len(haystack):
            
            # 待匹配字符串
            str_cut = haystack[idx:idx+len(needle)]
            
            # 判断是否匹配
            if str_cut==needle:
                return idx
            else:
                # 边界处理
                if idx+len(needle) >= len(haystack):
                    return -1
                # 不匹配情况下,根据下一个字符的偏移,移动idx
                cur_c = haystack[idx+len(needle)]
                if dic.get(cur_c):
                    idx += dic[cur_c]
                else:
                    idx += dic["ot"]
            
        
        return -1 if idx+len(needle) >= len(haystack) else idx

结语

业精于勤,荒于嬉;行成于思,毁于随。