Trie字典树

189 阅读3分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第31天,点击查看活动详情

Trie字典树

作用:高效的存储和查找字符串集合的数据结构

image-20221103191158842

基本结构:

int son[N][26], cnt[N], idx;

son[N][26],表示当前结点的儿子,如果没有的话,可以等于++idx,Trie树本质上是一颗多叉树,对于字母而言最多有26个子结点,所以这个数组包含了两条信息

  • son[N][26]: 只包含26个小写字母,每个节点最多向外连26条边
  • 比如:son[1][0]=2表示 : idx = 1的结点的一个值为a的子结点为idx = 2的节点;如果son[1][0] = 0,则意味着没有值为a子结点

比如说下标是x的节点,它的所有儿子存在了:son[x][26]当中 ,son[x][0]就是x的第0个孩子,....

cnt[x]存储的是以x这个节点结尾的单词数量 idx:当前用到了哪个下标, ++idx就是新需要插入的节点的编号

  • 0号点既是根节点,又是空节点

例子:

image-20221103191829009

对应的插入函数:

// 插入一个字符串
void insert(char *str)
{
    int p = 0;//从根节点开始遍历
    for (int i = 0; str[i] != '\0'; i ++ )//遍历这个字符串
    {
        int u = str[i] - 'a';//字符映射位置
        if (!son[p][u]) //如果当前节点p没有该子结点,就创建一个
            son[p][u] = ++ idx; //注意是前置++  
        p = son[p][u];//走到p的子结点
    }
    cnt[p] ++ ;//以这个节点结尾的单词数量++
}

image-20221103193259428

查找函数:

沿着之前插入好的路径搜索,当需要查询一个字符串 s 时,我们令一个指针 p 起初指向根节点,然后,依次扫描 s 中的每个字符 c:

  • 若 c 的字符指针指向一个己经存在的节点 q,则令 p= q
  • 若 c 的字符指针指向空,说明 s 没有插入过 TrieTrie 树,结束查询

当 s 中的字符扫描完毕时,在当前指针 p 上标记它是一个字符串的末尾

// 查询字符串出现的次数
int query(char *str)
{
    int p = 0;//从根节点开始遍历
    for (int i = 0; str[i] != '\0'; i ++ )
    {
        int u = str[i] - 'a';//字符映射位置
        if (!son[p][u]) //如果当前节点p没有该子结点,说明不存在这个字符串
            return 0;
        p = son[p][u];//走到p的子结点
    }
    return cnt[p];//返回这个单词的出现次数
}

例题:

image-20221103191412147

//Trie树快速存储字符集合和快速查询字符集合
#include <iostream>
using namespace std;
const int N = 100010;
//son[][]存储子节点的位置,分支最多26条;
//cnt[]存储以某节点结尾的字符串个数(同时也起标记作用)
//idx表示当前要插入的节点是第几个,每创建一个节点值+1
int son[N][26], cnt[N], idx;
char str[N];
void insert(char *str)
{
    int p = 0;  //类似指针,指向当前节点
    for(int i = 0; str[i]; i++)
    {
        int u = str[i] - 'a'; //将字母转化为数字,字符映射位置
        if(!son[p][u]) son[p][u] = ++idx;   //该节点不存在,创建节点
        p = son[p][u];  //使“p指针”指向下一个节点
    }
    cnt[p]++;  //结束时的标记,也是记录以此节点结束的字符串个数
}
int query(char *str)
{
    int p = 0;
    for(int i = 0; str[i]; i++)
    {
        int u = str[i] - 'a';
        if(!son[p][u]) return 0;  //该节点不存在,即该字符串不存在
        p = son[p][u]; 
    }
    return cnt[p];  //返回字符串出现的次数
}
int main()
{
    int m;
    cin >> m;
    while(m--)
    {
        char op;
        cin >> op >> str;
        if(op == 'I') insert(str);
        else printf("%d\n", query(str));
    }
    return 0;
}

投机取巧:

输入的是‘I’ 那就用map给字符串加1,否则输出x的数量

#include<iostream>
#include<unordered_map>
using namespace std;
int main()
{
    int n;char c;string s;unordered_map<string,int>m;
    cin>>n;
    while(n--)
    {
        cin>>c>>s;
        if(c=='I')
            m[s]++;
        if(c=='Q')
            cout<<m[s]<<endl;
    }
}