数据结构-串4.1串的定义和实现 4.1.2 串的定义串：即字符串（String）是由零个或多个字符组成的有限序列。

4.1串的定义和实现

4.1.2 串的定义

串：即字符串（String）是由零个或多个字符组成的有限序列。例：T=‘iPhone 11 Pro Max?’
子串：串中任意个连续的字符组成的子序列。
主串：包含子串的串。
字符在主串中的位置：字符在串中的序号。
子串在主串中的位置：子串的第一个字符在主串中的位置
注意：串的位序是从1开始而不是从0开始
空串：M=‘’ M是空串，里面没有存任何东西
空格串：N=‘ ’ N是由三个空格字符组成的空格串，每个空格字符占1B
串是一种特殊的线性表，数据元素之间呈线性关系

串的数据对象限定为字符集（如中文字符、英文字符、数字字符、标点字符等）

4.1.3 串的基本操作

StrAssign(&T,chars)：赋值操作。把串T赋值为chars。 StrCopy(&T,S)：复制操作。由串S复制得到串T。 StrEmpty(S)：判空操作。若S为空串，则返回TRUE，否则返回FALSE。 StrLength(S)：求串长。返回串S的元素个数。 ClearString(&S)：清空操作。将S清为空串。 DestroyString(&S)：销毁串。将串S销毁（回收存储空间）。 Concat(&T,S1,S2)：串联接。用T返回由S1和S2联接而成的新串 SubString(&Sub,S,pos,len)：求子串。用Sub返回串S的第pos个字符起长度为len的子串。 Index(S,T)：定位操作。若主串S中存在与串T值相同的子串，则返回它在主串S中第一次出现的位置；否则函数值为0。 StrCompare(S,T)：比较操作。若S>T，则返回值>0；若S=T，则返回值=0；若S<T，则返回值<0

4.2 串的存储结构

4.2.1 串的顺序存储

串的顺序存储（静态数组）：

// ch[0]废弃不用，声明int型变量length来存放串的长度
#define MAXLEN 255    //预定义最大串长为255
 
typedef struct{        
    char ch[MAXLEN];  //每个分量存储一个字符 静态数组实现(定长顺序存储)
    int length;       //串的实际长度
}SString;
 
// 串的初始化
bool InitString(SString &S){
    S.length = 0;    
    return true;
}
 
// 求串的长度
int StrLength(SString S){    
    return S.length;
}
 
// 求子串
bool SubString(SString &Sub, SString S, int pos, int len){ 
    if(pos+len-1 > S.length)            //子串范围越界
        return false;    
    for(int i=pos; i<pos+len; i++)
        Sub.ch[i-pos+1] = S.ch[i];
    Sub.length = len;
    return true;
}
 
// 比较操作。笔记S、T的大小，若S>T，则返回值大于0；若S=T，则返回值等于0；若S<T，则返回值小于0
int StrCompare(SString S, SString T){    
    for(int i=1; i<=S.length && i<=T.length; i++){
        if(S.ch[i]!=T.ch[i])       
            return S.ch[i]-T.ch[i];    
    }    
    // 扫描过的所有字符都相同，则长度长的串更大    
    return S.length-T.length;
}
 
//定位操作。主串S中存在与串T值相同的子串则返回串T在主串S中第一次出现的位置，若无法定位则返回0
int Index(SString S, SString T){    
    int i=1, n=StrLength(S), m=StrLength(T);    //n求出S的长度，m表示T的长度
    SString sub;   //用于暂存子串
    while(i<=n-m+1){       //从头到尾依次取     
        SubString(sub, S, i, m);        
        if(StrCompare(sub, T)!=0)            
            ++i;        
        else            
            return i;    //返回子串在主串中的位置
    }
    return 0;	//S中不存在与T相等的子串
}
 
void test{    
    SString S;    
    InitString(S);    
    ...
}

串的顺序存储（动态数组）：

#define MAXLEN 255
 
typedef struct{  
    char *ch;        //按串长分配存储区，ch指向串的基地址
    int length;
}HString;            //动态数组实现(堆分配存储)
 
bool InitString(HString &S){ 
    S.ch = (char *)malloc(MAXLEN * sizeof(char)); //malloc分配一片连续的存储空间
    if(S.ch == NULL)      
        return false;  
    S.length = 0;  
    return true;
}
 
void test{  
    HString S;  
    InitString(S);  
    ...
}

4.2.2 串的链式存储

typedef struct StringNode{   
    char ch;	//每个结点存1个字符  
    struct StringNode *next;
}StringNode, *String;

上述方式存储密度低，一般采用下面的方式，使每个结点存储多个字符

typedef struct StringNode{   
    char ch[4];		//每个结点存多个字符   
    struct StringNode *next;
}StringNode, *String;

4.3 串的模式匹配

4.3.1_朴素模式匹配算法

字符串模式匹配：在主串中找到与模式串相同的⼦串，并返回其所在位置
主串⻓度为n，模式串⻓度为 m 朴素模式匹配算法：将主串中所有⻓度为m的⼦串依次与模式串对⽐，直到找到⼀个完全匹配的⼦串，或所有的⼦串都不匹配为⽌。最多对⽐ n-m+1 个⼦串
Index(S,T)：定位操作。若主串S中存在与串T值相同的⼦串，则返回它在主串S中第⼀次出现的位置；否则函数值为0
接下来不使用字符串的基本操作，直接通过数组下标实现朴素模式匹配算法

// 在主串S中找到与模式串T相同的子串并返回其位序，否则返回0
int Index(SString S, SString T){   
    int i=1, j=1;  
    while(i<=S.length && j<=T.length){    
        if(S.ch[i] == T.ch[j]){     //如果i里面存的字符和j里面存的相同的话
            ++i; ++j;     //++继续比较后继字符
        }else{        
            i=i-j+2;      //i指针指向下一个子串的起始位置
            j=1;          //j指针后退回到第一个位置重新开始匹配 
        }   
    }   
    if(j>T.length) 
        return i-T.length;   
    else       
        return 0;
}

设主串⻓度为 n，模式串⻓度为 m，则最坏时间复杂度 = O(nm)

最坏的情况，每个⼦串都要对⽐ m 个字符，共 n-m+1 个⼦串，复杂度 = O((n-m+1)m) = O(nm)

4.3.2_1_KMP算法

朴素模式匹配算法的缺点
⼀旦发现当前这个⼦串中某个字符不匹配，就只能转⽽匹配下⼀个⼦串（从头开始）

next数组只和短短的模式串有关，和长长的主串⽆关

KMP算法：当子串和模式串不匹配时，主串指针 i 不回溯，模式串指针 j=next[j]。

KMP算法最坏时间复杂度 O(m+n)

其中，求 next 数组时间复杂度 O(m)

模式匹配过程最坏时间复杂度 O(n)

KMP算法的代码实现

// 获取模式串T的next[]数组
void getNext(SString T, int next[]){ 
    int i=1, j=0;  
    next[1]=0;  
    while(i<T.length){   
        if(j==0 || T.ch[1]==T.ch[j]){ 
            ++i; ++j;      
            next[i]=j;  
        }else      
            j=next[j]; 
    }
}
 
// KPM算法，求主串S中模式串T的位序，没有则返回0
int Index_KMP(SString S, SString T){   
    int i=1, j=1;  
    int next[T.length+1]; 
    getNext(T, next);  
    while(i<=S.length && j<=T.length){  
        if(j==0 || S.ch[i]==T.ch[j]){   //如果主串的元素和模式串的元素相等或j等于0时
            ++i;  
            ++j;               //i和j++，继续比较后继字符
        }else   
            j=next[j];         //模式串向后移动
    }    
    if(j>T.length)   
        return i-T.length;      //j大于模式串长度说明匹配成功
    else
        return 0;
}
 
int main() {
	SString S={"ababcabcd", 9};
	SString T={"bcd", 3};
	printf("%d ", Index_KPM(S, T));	//输出9
}

KMP算法精髓：利用已经匹配过的模式串的信息，求出next数组→利用next数组进行匹配(主串指针不回溯）

4.2.2_2_求next数组

next数组的作⽤：当模式串的第 j 个字符失配时，从模式串的第 next[j] 的继续往后匹配

任何模式串第⼀个字符不匹配时，只能匹配下⼀个⼦串，因此，next[1]都⽆脑写 0 第2个字符不匹配时，应尝试匹配模式串的第1个字符，因此，next[2]都⽆脑写 1 接下来的字符，在不匹配的位置前划一根分界线，模式串一步一步往后退，直到分界线前的“对的上”，或模式串完全越过分界线位置,如下面为第3个字符不匹配的情况

4.2.3_KMP算法的进一步优化

第3个字符和第1个字符相同，所以可以直接跳到next[1]指向的位置，第5个字符跟第2个字符相同，直接跳到next[2]指向的位置

void getNextval(SString T, int nextval[]){
    int i=1,j=0;
    nextval[1]=0;
    while(i<T.length){
        if(j==0 || T.ch[i]==T.ch[j]){
            ++i; ++j;
            if(T.ch[i]!=T.ch[j])
                nextval[i]=j;
            else
                nextval[i]=nextval[j];
        }else
            j=nextval[j];
    }
}