【字典树】[AHOI2005] 病毒检测

152 阅读3分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第22天,点击查看活动详情

[AHOI2005] 病毒检测

题目描述

科学家们在Samuel星球上的探险仍在继续。非常幸运的,在Samuel星球的南极附近,探险机器人发现了一个巨大的冰湖!机器人在这个冰湖中搜集到了许多RNA片段运回了实验基地。

科学家们经过几个昼夜的研究,发现这些RNA片段中有许多是未知的病毒!

每个RNA片段都是由A、C、T、G组成的序列。科学家们也总结出了Samuel星球上的“病毒模版片段”。一个模版片段是由A、C、T、G的序列加上通配符 * 和 ? 来表示。其中 * 的意思是可以匹配上0个或任意多个字符,而 ? 的意思是匹配上任意一个字母。

如果一个RNA片段能够和“病毒模版片段”相匹配,那么这个RNA片段就是未知的病毒。

例如,假设“病毒模版片段”为A*G?C。RNA片段:AGTC,AGTGTC都是未知的病毒,而RNA片段AGTGC则不是病毒。

由于,机器人搜集的这些RNA片段中除去病毒的其他部分都具有非常高的研究价值。所以科学家们希望能够分辨出其中哪些RNA片段不是病毒,并将不是病毒的RNA片段运回宇宙空间站继续进行研究。

科学家将这项任务交给了小联。现在请你为小联编写程序统计哪些RNA片段不是病毒。

输入格式

第一行有一个字符串,由A、C、T、G、*、? 组成。表示“病毒模版片段”。“病毒模版片段”的长度不超过1000。第二行有一个整数N(0<N<500),表示机器人搜集到的RNA片段的数目。随后的N行,每一行有一个字符串,由A、C、T、G组成,表示一个RNA片段。每个RNA片段的长度不超过500。注意:“病毒模版片段”和RNA片段的长度都至少为1。

输出格式

只有一行输出,为整数M,即不是病毒的RNA片段的数目。

样例 #1

样例输入 #1

A*G?C
    3
AGTC
AGTGTC
AGTGC

样例输出 #1

1

提示

输入中的RNA片段AGTGC不是病毒。

#include<bits/stdc++.h>
using namespace std;
int trie[250005][4],maxnode=0,n,size[250005],mbl,ans;
int p;
char mb[1005],x[1005];
bool b[250005][4],ended[2500005];
void insert(char s[]){
	int now=0,len=strlen(s);
	for(int i=0;i<len;i++){
		if(s[i]=='A')p=0;
		if(s[i]=='C')p=1;
		if(s[i]=='T')p=2;
		if(s[i]=='G')p=3;
	    size[now]++;
		if(!trie[now][p])trie[now][p]=++maxnode;
		now=trie[now][p];
	}
	size[now]++;
	ended[now]=1;
	return;
}
void dfs(int ws,int now){
	if(!size[now])return;
	if(ws==mbl){
		ans+=ended[now];
		size[now]-=ended[now];
		ended[now]=0;
		return;
	}
	if(mb[ws]=='?'){
		for(int i=0;i<4;i++){
		    int son=trie[now][i];
			if(son)dfs(ws+1,son);
		}
	}
	else if(mb[ws]=='*'){
		dfs(ws+1,now);
		for(int i=0;i<4;i++)if(trie[now][i]){
			dfs(ws+1,trie[now][i]);
			dfs(ws,trie[now][i]);
		}
	}
	else {
		if(mb[ws]=='A')p=0;
		if(mb[ws]=='C')p=1;
		if(mb[ws]=='T')p=2;
		if(mb[ws]=='G')p=3;
		if(trie[now][p])dfs(ws+1,trie[now][p]);
	}
	size[now]=0;
	for(int i=0;i<4;i++)if(trie[now][i])size[now]+=size[trie[now][i]];
}
int main(){
	scanf("%s%d",mb,&n);
	mbl=strlen(mb);
	for(int i=1;i<=n;i++){
		scanf("%s",x);
		insert(x);
	}
	dfs(0,0);
	cout<<n-ans;
}