散列函数是一种从任何一种数据中创建小的数字“指纹”的方法。一般来讲，散列函数的输入包含较多的信息（比如SHA-2最高接受

转载自作者：yhthu 链接：www.jianshu.com/p/15ca18113…

1.1 散列函数

散列函数（Hash Function）

是一种从任何一种数据中创建小的数字“指纹”的方法。一般来讲，散列函数的输入包含较多的信息（比如SHA-2最高接受(264-1)/8长度的字节字符串），经过散列算法后，映射为一个更小空间的散列值（通常为格式固定的字母和数字组成的字符串），其过程如下图所示。

散列函数在加密、校验等安全领域有广泛的应用，比如，SHA（Secure Hash Algorithm）家族在TLS和SSL、PGP、SSH、S/MIME和IPsec等安全协议中的广泛应用，MD5（Message-Digest Algorithm 5）在文件下载中校验的应用，此外，散列表是散列函数的一个主要应用。

1.2 散列表

散列表的核心优势是能够按照关键字快速存取数据记录，其插入、查找和删除的平均时间复杂度为O(1)。在实现上，将关键字通过散列函数映射为一个数组的地址，而将数据记录存储在该数组单元中。对同一散列函数，要求两个散列值如果是不相同的，那么这两个散列值的原始输入也是不相同的；但两个散列值如果是相同的，却并不能确定两个输入值是相同的，如果不同的输入得到的相同的散列值，这种情况就是“散列冲突”。一种常用的散列表结构如下图所示。

从图中可以看出，散列表的核心结构为：数组+链表。直接存储散列数据的结构称为节点，节点包含散列值、关键字、数据域和指针域（指向下一个节点）。如图中的节点13，其关键字经过散列函数得出在数组中的下标为0，数据域为13，指针域指向下一个节点6。节点在数组中存储的地址称为槽位，比如散列冲突时，37、62、52和92经过散列函数计算得出的槽位均为14。

那么，为了减少散列冲突，使数据元素在数组中均匀分布，在散列表的实现中，选择合适的散列函数至关重要，常见的散列函数包括直接寻址法、数字分析法、平方取中法、折叠法、随机数法及除留余数法等，其中，直接寻址法通过取key值或者key值的某个线性函数值作为散列地址，即hash(k)=k或者hash(k)=a*k+b；除留余数法通过取关键字被某个不大于散列表表长m的数p除后所得的余数为散列地址。即 hash(k)= k mod p, p < m。在JDK中常用除留余数法作为散列函数。

1.3 解决散列冲突

一个好的散列函数要求尽量减少散列冲突且计算简单，但冲突总是无法避免的，遇到冲突有哪些解决办法呢？

链地址法

上图中解决散列冲突的方法就是链地址法，即将散列到同一槽位的元素通过链表进行保存。JDK中就是使用这种方法来解决散列冲突的。

开放定址法

假定散列函数为H，经过散列函数运算H(key)后得到散列值为Hi，过程如下：
Hi =(H(key) + di) % m，其中i = 1，2，…，n.

常用的开放定址法包括线性探测法和平方探测法。
其区别在于di：
线程探测法：
di = 1，2，3，…，m-1. 平方探测法：
di =12，-12，22，-22，…，k2，-k2 ( k<=m/2 ).

再散列

顾名思义，在散列冲突发生后，采用新的散列函数对key进行重新散列。假定散列函数分别为RH1，RH2……，散列过程如下：
Hi=RH1（key），其中 i=1，2，…，k
当散列值Hi=RH1（key）发生冲突时，再计算Hi=RH2（key）……，直到不冲突为止。