字符串哈希表

50 阅读2分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第38天,点击查看活动详情

什么是字符串哈希?

字符串哈希的全称叫做前缀哈希法,简单来说就是将一个字符串变成一个p进制的数字,这个数字就是这个子串的哈希值,然后通过不同的字符串映射到不同的数字。

映射公式: (X1×Pn1+X2×Pn2++Xn1×P1+Xn×P0X^1×P_{n−1}+X^2×P_{n−2}+⋯+X^{n−1}×P^1+X^n×P_0)modQmod Q

注意

  • 任何字符不可以映射成0,否则会出现不同的字符串都映射成0的情况,such as:A,AA,AAA按照映射公式的话都会化成0
  • 对于手写哈希表的冲突问题,我们在数学与实践上对于P有一个很精妙的设置:(131或是13331),Q(2642^{64}),在这个前提下我们一般可以理解为不产生冲突

例题——841. 字符串哈希

题目描述:

给定一个长度为 n 的字符串,再给定 m 个询问,每个询问包含四个整数 l1,r1,l2,r2,请你判断 [l1,r1] 和 [l2,r2] 这两个区间所包含的字符串子串是否完全相同。

字符串中只包含大小写英文字母和数字。

输入格式

第一行包含整数 n 和 m,表示字符串长度和询问次数。

第二行包含一个长度为 n 的字符串,字符串中只包含大小写英文字母和数字。

接下来 m 行,每行包含四个整数 l1,r1,l2,r2,表示一次询问所涉及的两个区间。

注意,字符串的位置从 11 开始编号。

输出格式

对于每个询问输出一个结果,如果两个字符串子串完全相同则输出 Yes,否则输出 No

每个结果占一行。

数据范围

1n,m1051≤n,m≤10^5

输入样例:

8 3
aabbaabb
1 3 5 7
1 3 6 8
1 2 1 2

输出样例:

Yes
No
Yes

思路分析

  • h数字的前i个字符就是前i个字符的子串的hash值
  • 字符串变成一个P进制的数字,需要确保不同的字符串对应不同的数字

代码展示:

#include<iostream>
using namespace std;

typedef unsigned long long ULL;

const int N = 100010, P = 131;

int n, m;
string str;
ULL h[N], p[N];

ULL search(int l, int r) {
	return h[r] - h[l - 1] * p[r - l + 1];
}

int main()
{
	ios::sync_with_stdio(false), cin.tie(0), cout.tie(0);

	cin >> n >> m >> str;

	p[0] = 1;
	for (int i = 0; i < n; i++) {
		p[i + 1] = p[i] * P;
		h[i + 1] = h[i] * P + str[i];
	}

	while (m--) {
		int l1, r1, l2, r2;
		cin >> l1 >> r1 >> l2 >> r2;

		if (search(l1, r1) == search(l2, r2))cout << "Yes" << endl;
		else cout << "No" << endl;
	}

	return 0;
}