「这是我参与2022首次更文挑战的第10天,活动详情查看:2022首次更文挑战」。
题目
实现 strStr() 函数。
给你两个字符串 haystack
和 needle
,请你在 haystack 字符串中找出 needle 字符串出现的第一个位置(下标从 0 开始)。如果不存在,则返回 -1 。
说明:
当 needle 是空字符串时,我们应当返回什么值呢?这是一个在面试中很好的问题。
对于本题而言,当 needle 是空字符串时我们应当返回 0 。这与 C 语言的 strstr() 以及 Java 的 indexOf() 定义相符。
示例 1
输入:haystack = "hello", needle = "ll"
输出:2
示例 2
输入:haystack = "aaaaa", needle = "bba"
输出:-1
示例 3
输入:haystack = "", needle = ""
输出:0
提示
- 0 <= haystack.length, needle.length <= 5 * 104
- haystack 和 needle 仅由小写英文字符组成
题解
思路
这一题是经典的字符串单模匹配的模型,因此可以使用字符串匹配算法解决,常见的字符串匹配算法包括暴力匹配、Knuth-Morris-Pratt 算法、Boyer-Moore 算法、Sunday 算法等,这题我使用 Sunday 算法解决。
匹配机制非常容易理解:
- 目标字符串 String
- 模式串 Pattern
- 当前查询索引
idx
(初始为 0) - 待匹配字符串
str_cut
:String [ idx : idx + len(Pattern) ]
每次匹配都会从目标字符串中提取待匹配字符串与模式串进行匹配:
- 若匹配,则返回当前 idx
- 不匹配,则查看 待匹配字符串 的后一位字符 c:
- 若 c 存在于Pattern中,则 idx = idx + 偏移表[c]
- 否则,
idx = idx + len(pattern)
Repeat Loop 直到 idx + len(pattern) > len(String)
.
注:偏移表的作用是存储每一个在模式串中出现的字符,在模式串中出现的最右位置到尾部的距离 +1。
代码
class Solution:
def strStr(self, haystack: str, needle: str) -> int:
# Func: 计算偏移表
def calShiftMat(st):
dic = {}
for i in range(len(st)-1,-1,-1):
if not dic.get(st[i]):
dic[st[i]] = len(st)-i
dic["ot"] = len(st)+1
return dic
# 其他情况判断
if len(needle) > len(haystack):return -1
if needle=="": return 0
# 偏移表预处理
dic = calShiftMat(needle)
idx = 0
while idx+len(needle) <= len(haystack):
# 待匹配字符串
str_cut = haystack[idx:idx+len(needle)]
# 判断是否匹配
if str_cut==needle:
return idx
else:
# 边界处理
if idx+len(needle) >= len(haystack):
return -1
# 不匹配情况下,根据下一个字符的偏移,移动idx
cur_c = haystack[idx+len(needle)]
if dic.get(cur_c):
idx += dic[cur_c]
else:
idx += dic["ot"]
return -1 if idx+len(needle) >= len(haystack) else idx
结语
业精于勤,荒于嬉;行成于思,毁于随。