1. 串的定义
即字符串 String,是由零个或多个字符组成的有限序列。
1.1 重要术语
子串:串中任意个连续的字符组成的子序列。 空串:长度为0的串。 主串:包含子串的串。 字符在主串中的位置:字符在串中的序号。 子串在主串中的位置:子串的第一个字符在主串中的位置。 位置在数据结构中都是从1开始
1.2 特点
串是一种特殊的线性表,数据元素之间呈线性关系。
串的数据对象限定为字符集(如中文字符、英文字符、数字字符、标点字符等)
串的基本操作,如增删改查等通常以子串为操作对象。
1.3 串的基本操作
赋值操作:把串T赋值为chars。StrAssign(&T,chars)
复制操作:由串S复制得到串T。StrCopy(&T,S)
判空操作:如果S为空串,则返回True,否则返回FALSE。StrEmpty(S)
求串长:返回串S的元素个数。StrLength(S)
清空操作:将S清为空串。 ClearString(&S)
销毁串:将串S销毁。(回收存储空间)DestroyString(&S)
串联接:用T返回由S1和S2联接而成的新串。Concat(&T,S1,S2)
设计串的存储结构应该是一种容易扩展的存储结构
求子串:用Sub返回串S的第pos个字符起长度为len的子串。SubString(&Sub,S,pos,len)
定位操作:若主串S中存在与串T值相同的子串,则返回它在主串S中第一次出现的位置,否则函数值为0。Index(S,T)
比较操作:若S>T则返回值>0,若S=T,则返回值 = 0,若S<T 则返回值<0。 StrCompare(S,T)
2. 串的顺序存储
其实就是将线性表中的数据元素 ElemType改为 char。 顺序存储支持随机存取,但是空间的扩展收缩不方便。
2.1 静态数组实现:定长顺序存储
缺点:长度不可变
2.2 动态数组实现:堆分配存储
用完需要手动free
3. 串的链式存储
存储密度低,每个字符1B,每个指针4B。 改进方法,可以每个结点存多个字符。 优点:增删改查实现比较方便。 缺点:不支持随机存储。
4. 串的基本操作
4.1 串的基本操作,求子串
4.2 比较两个串的大小
4.3 定位操作
4.3.1 串的朴素模式匹配算法(简单模式匹配算法)
串的模式匹配:在主串中找到与模式串相同的子串,并返回其所在位置。定位操作。
子串:主串中存在的才叫子串。
模式串:想尝试在主串中找到的串,未必存在。
//1.3 朴素模式匹配算法
int Index(SString s, SString t)
{
int k = 1;
int i = k, j = 1;
while (i <= s.len && j <= t.len) //当不超过主串和模式串的长度时,比较
{
if (s.ch[i] == t.ch[j])
{
++i;
++j; //继续比较后继的字符
}
else //检查下一个子串
{
k++;
i = k;
j = 1;
}
}
if (j > t.len) //模式串比较完,且主串没有超界
return k;
else
return 0;
}
性能分析:
若模式串长度为 ,主串长度为 ,则
匹配成功的最好时间复杂度:
匹配失败的最好时间复杂度:
匹配成功/失败的最坏时间复杂度:
4.3.2 KMP算法:朴素模式匹配算法的优化
朴素模式匹配算法的缺点:当某些子串与模式串能部分匹配时,主串的扫描指针i经常回溯,导致时间开销增加。
KMP算法的优化思路:主串指针不回溯,只有模式串指针回溯。
1) KMP算法的核心思想
KMP算法的核心是需要有一个跟模式串匹配的next数组来指导模式串指针的回溯。
2) KMP求模式串的next数组
串的前缀: 包含第一个字符,且不包含最后一个字符的子串。
串的后缀: 包含最后一个字符,且不包含第一个字符的子串。
-
特别的,对任何一个模式串来说 。
-
当第j个字符匹配失败,由前1~j-1个字符组成的串记为S,则
KMP算法的平均时间复杂度:
3) KMP算法优化
KMP算法存在的问题:在模式串中存在相同串的情况下,可能会进行不必要的对比。
可以通过nextVal数组对next数组进一步优化。