数据结构与算法笔记4 串 String

150 阅读3分钟

1. 串的定义

即字符串 String,是由零个或多个字符组成的有限序列。

1.1 重要术语

子串:串中任意个连续的字符组成的子序列。 空串:长度为0的串。 主串:包含子串的串。 字符在主串中的位置:字符在串中的序号。 子串在主串中的位置:子串的第一个字符在主串中的位置。 位置在数据结构中都是从1开始

1.2 特点

串是一种特殊的线性表,数据元素之间呈线性关系。

串的数据对象限定为字符集(如中文字符、英文字符、数字字符、标点字符等)

串的基本操作,如增删改查等通常以子串为操作对象。

1.3 串的基本操作

赋值操作:把串T赋值为chars。StrAssign(&T,chars)

复制操作:由串S复制得到串T。StrCopy(&T,S)

判空操作:如果S为空串,则返回True,否则返回FALSE。StrEmpty(S)

求串长:返回串S的元素个数。StrLength(S)

清空操作:将S清为空串。 ClearString(&S)

销毁串:将串S销毁。(回收存储空间)DestroyString(&S)

串联接:用T返回由S1和S2联接而成的新串。Concat(&T,S1,S2)

设计串的存储结构应该是一种容易扩展的存储结构

求子串:用Sub返回串S的第pos个字符起长度为len的子串。SubString(&Sub,S,pos,len)

定位操作:若主串S中存在与串T值相同的子串,则返回它在主串S中第一次出现的位置,否则函数值为0。Index(S,T)

比较操作:若S>T则返回值>0,若S=T,则返回值 = 0,若S<T 则返回值<0。 StrCompare(S,T)

2. 串的顺序存储

其实就是将线性表中的数据元素 ElemType改为 char。 顺序存储支持随机存取,但是空间的扩展收缩不方便。

image.png

image.png

2.1 静态数组实现:定长顺序存储

缺点:长度不可变

2.2 动态数组实现:堆分配存储

用完需要手动free

3. 串的链式存储

存储密度低,每个字符1B,每个指针4B。 改进方法,可以每个结点存多个字符。 优点:增删改查实现比较方便。 缺点:不支持随机存储。

image.png

4. 串的基本操作

image.png

4.1 串的基本操作,求子串

image.png

4.2 比较两个串的大小

image.png

4.3 定位操作

image.png

4.3.1 串的朴素模式匹配算法(简单模式匹配算法)

串的模式匹配:在主串中找到与模式串相同的子串,并返回其所在位置。定位操作。

子串:主串中存在的才叫子串。

模式串:想尝试在主串中找到的串,未必存在。

image.png

//1.3 朴素模式匹配算法
int Index(SString s, SString t) 
{
	int k = 1;
	int i = k, j = 1;
	while (i <= s.len && j <= t.len) //当不超过主串和模式串的长度时,比较
	{
		if (s.ch[i] == t.ch[j]) 
		{
			++i;
			++j; //继续比较后继的字符
		}
		else  //检查下一个子串
		{
			k++;
			i = k;
			j = 1;
		}
	}
	if (j > t.len) //模式串比较完,且主串没有超界
		return k;
	else
		return 0;
}

性能分析

若模式串长度为m m ,主串长度为 n n ,则

匹配成功的最好时间复杂度:O(m) O(m)

匹配失败的最好时间复杂度:O(nm+1)=O(nm)=>O(n)O( n -m+1) = O(n-m) =>O(n)

匹配成功/失败的最坏时间复杂度:O(nm+1)m=>O(nm) O(n-m+1)*m =>O(nm)

4.3.2 KMP算法:朴素模式匹配算法的优化

朴素模式匹配算法的缺点:当某些子串与模式串能部分匹配时,主串的扫描指针i经常回溯,导致时间开销增加。

KMP算法的优化思路:主串指针不回溯,只有模式串指针回溯。

1) KMP算法的核心思想

KMP算法的核心是需要有一个跟模式串匹配的next数组来指导模式串指针的回溯。

image.png

image.png

2) KMP求模式串的next数组

串的前缀: 包含第一个字符,且不包含最后一个字符的子串。

串的后缀: 包含最后一个字符,且不包含第一个字符的子串。

  1. 特别的,对任何一个模式串来说 next[1]=0next[1]=0

  2. 当第j个字符匹配失败,由前1~j-1个字符组成的串记为S,则

    next[j]=S的最长相等前后缀长度+1next[j]= ''S的最长相等前后缀长度+1''

image.png

KMP算法的平均时间复杂度: O(n+m) O(n+m) image.png

3) KMP算法优化

KMP算法存在的问题:在模式串中存在相同串的情况下,可能会进行不必要的对比。

可以通过nextVal数组对next数组进一步优化。

image.png