数据结构-串

192 阅读7分钟

4.1串的定义和实现

4.1.2 串的定义
  • 串:即字符串(String)是由零个或多个字符组成的有限序列。 例:T=‘iPhone 11 Pro Max?’
  • 子串:串中任意个连续的字符组成的子序列。
  • 主串:包含子串的串。
  • 字符在主串中的位置:字符在串中的序号。
  • 子串在主串中的位置:子串的第一个字符在主串中的位置
  • 注意:串的位序是从1开始而不是从0开始
  • 空串:M=‘’ M是空串,里面没有存任何东西
  • 空格串:N=‘ ’ N是由三个空格字符组成的空格串,每个空格字符占1B
  • 串是一种特殊的线性表,数据元素之间呈线性关系

串的数据对象限定为字符集(如中文字符、英文字符、数字字符、标点字符等)

4.1.3 串的基本操作

StrAssign(&T,chars):赋值操作。把串T赋值为chars。 StrCopy(&T,S):复制操作。由串S复制得到串T。 StrEmpty(S):判空操作。若S为空串,则返回TRUE,否则返回FALSE。 StrLength(S):求串长。返回串S的元素个数。 ClearString(&S):清空操作。将S清为空串。 DestroyString(&S):销毁串。将串S销毁(回收存储空间)。 Concat(&T,S1,S2):串联接。用T返回由S1和S2联接而成的新串 SubString(&Sub,S,pos,len):求子串。用Sub返回串S的第pos个字符起长度为len的子串。 Index(S,T):定位操作。若主串S中存在与串T值相同的子串,则返回它在主串S中第一次出现的 位置;否则函数值为0。 StrCompare(S,T):比较操作。若S>T,则返回值>0;若S=T,则返回值=0;若S<T,则返回值<0

4.2 串的存储结构

4.2.1 串的顺序存储

串的顺序存储(静态数组):

// ch[0]废弃不用,声明int型变量length来存放串的长度
#define MAXLEN 255    //预定义最大串长为255
 
typedef struct{        
    char ch[MAXLEN];  //每个分量存储一个字符 静态数组实现(定长顺序存储)
    int length;       //串的实际长度
}SString;
 
// 串的初始化
bool InitString(SString &S){
    S.length = 0;    
    return true;
}
 
// 求串的长度
int StrLength(SString S){    
    return S.length;
}
 
// 求子串
bool SubString(SString &Sub, SString S, int pos, int len){ 
    if(pos+len-1 > S.length)            //子串范围越界
        return false;    
    for(int i=pos; i<pos+len; i++)
        Sub.ch[i-pos+1] = S.ch[i];
    Sub.length = len;
    return true;
}
 
// 比较操作。笔记S、T的大小,若S>T,则返回值大于0;若S=T,则返回值等于0;若S<T,则返回值小于0
int StrCompare(SString S, SString T){    
    for(int i=1; i<=S.length && i<=T.length; i++){
        if(S.ch[i]!=T.ch[i])       
            return S.ch[i]-T.ch[i];    
    }    
    // 扫描过的所有字符都相同,则长度长的串更大    
    return S.length-T.length;
}
 
//定位操作。主串S中存在与串T值相同的子串则返回串T在主串S中第一次出现的位置,若无法定位则返回0
int Index(SString S, SString T){    
    int i=1, n=StrLength(S), m=StrLength(T);    //n求出S的长度,m表示T的长度
    SString sub;   //用于暂存子串
    while(i<=n-m+1){       //从头到尾依次取     
        SubString(sub, S, i, m);        
        if(StrCompare(sub, T)!=0)            
            ++i;        
        else            
            return i;    //返回子串在主串中的位置
    }
    return 0;	//S中不存在与T相等的子串
}
 
void test{    
    SString S;    
    InitString(S);    
    ...
}

串的顺序存储(动态数组):

#define MAXLEN 255
 
typedef struct{  
    char *ch;        //按串长分配存储区,ch指向串的基地址
    int length;
}HString;            //动态数组实现(堆分配存储)
 
bool InitString(HString &S){ 
    S.ch = (char *)malloc(MAXLEN * sizeof(char)); //malloc分配一片连续的存储空间
    if(S.ch == NULL)      
        return false;  
    S.length = 0;  
    return true;
}
 
void test{  
    HString S;  
    InitString(S);  
    ...
}
4.2.2 串的链式存储
typedef struct StringNode{   
    char ch;	//每个结点存1个字符  
    struct StringNode *next;
}StringNode, *String;

上述方式存储密度低, 一般采用下面的方式,使每个结点存储多个字符

typedef struct StringNode{   
    char ch[4];		//每个结点存多个字符   
    struct StringNode *next;
}StringNode, *String;

4.3 串的模式匹配

4.3.1_朴素模式匹配算法
  • 字符串模式匹配:在主串中找到与模式串相同的⼦串,并返回其所在位置

  • 主串⻓度为n,模式串⻓度为 m 朴素模式匹配算法:将主串中所有⻓度为m的⼦串依次与模式串对⽐,直到找到⼀个完全匹配的⼦串, 或所有的⼦串都不匹配为⽌。 最多对⽐ n-m+1 个⼦串

  • Index(S,T):定位操作。若主串S中存在与串T值相同的⼦串,则返回它在主串S中第⼀次出现 的位置;否则函数值为0

  • 接下来不使用字符串的基本操作,直接通过数组下标实现朴素模式匹配算法

// 在主串S中找到与模式串T相同的子串并返回其位序,否则返回0
int Index(SString S, SString T){   
    int i=1, j=1;  
    while(i<=S.length && j<=T.length){    
        if(S.ch[i] == T.ch[j]){     //如果i里面存的字符和j里面存的相同的话
            ++i; ++j;     //++继续比较后继字符
        }else{        
            i=i-j+2;      //i指针指向下一个子串的起始位置
            j=1;          //j指针后退回到第一个位置重新开始匹配 
        }   
    }   
    if(j>T.length) 
        return i-T.length;   
    else       
        return 0;
}

设主串⻓度为 n,模式串⻓度为 m,则 最坏时间复杂度 = O(nm)

最坏的情况,每个⼦串都要对⽐ m 个字符,共 n-m+1 个⼦串,复杂度 = O((n-m+1)m) = O(nm)

4.3.2_1_KMP算法

朴素模式匹配算法的缺点
⼀旦发现当前这个⼦串中某个字符不匹配,就只能转⽽匹配下⼀个⼦串(从头开始)

next数组只和短短的模式串 有关,和长长的主串⽆关

KMP算法:当子串和模式串不匹配时,主串指针 i 不回溯,模式串指针 j=next[j]。

KMP算法最坏时间复杂度 O(m+n)

其中,求 next 数组时间复杂度 O(m)

模式匹配过程最坏时间复杂度 O(n)

KMP算法的代码实现

// 获取模式串T的next[]数组
void getNext(SString T, int next[]){ 
    int i=1, j=0;  
    next[1]=0;  
    while(i<T.length){   
        if(j==0 || T.ch[1]==T.ch[j]){ 
            ++i; ++j;      
            next[i]=j;  
        }else      
            j=next[j]; 
    }
}
 
// KPM算法,求主串S中模式串T的位序,没有则返回0
int Index_KMP(SString S, SString T){   
    int i=1, j=1;  
    int next[T.length+1]; 
    getNext(T, next);  
    while(i<=S.length && j<=T.length){  
        if(j==0 || S.ch[i]==T.ch[j]){   //如果主串的元素和模式串的元素相等或j等于0时
            ++i;  
            ++j;               //i和j++,继续比较后继字符
        }else   
            j=next[j];         //模式串向后移动
    }    
    if(j>T.length)   
        return i-T.length;      //j大于模式串长度说明匹配成功
    else
        return 0;
}
 
int main() {
	SString S={"ababcabcd", 9};
	SString T={"bcd", 3};
	printf("%d ", Index_KPM(S, T));	//输出9
}

KMP算法精髓:利用已经匹配过的模式串的信息,求出next数组→利用next数组进行匹配(主串指针不回溯)

4.2.2_2_求next数组

next数组的作⽤:当模式串的第 j 个字符失配时,从模式串的第 next[j] 的继续往后匹配

  • 任何模式串第⼀个字符不匹配时,只能匹配下⼀个⼦串,因此,next[1]都⽆脑写 0 第2个字符不匹配时,应尝试匹配模式串的第1个字符, 因此,next[2]都⽆脑写 1 接下来的字符,在不匹配的位置前划一根分界线,模式串一步一步往后退,直到分界线前的“对的上”,或模式串完全越过分界线位置,如下面为第3个字符不匹配的情况
4.2.3_KMP算法的进一步优化

第3个字符和第1个字符相同,所以 可以直接跳到next[1]指向的位置,第5个字符跟第2个字符相同,直接跳到next[2]指向的位置

void getNextval(SString T, int nextval[]){
    int i=1,j=0;
    nextval[1]=0;
    while(i<T.length){
        if(j==0 || T.ch[i]==T.ch[j]){
            ++i; ++j;
            if(T.ch[i]!=T.ch[j])
                nextval[i]=j;
            else
                nextval[i]=nextval[j];
        }else
            j=nextval[j];
    }
}