转载自 作者:yhthu 链接:www.jianshu.com/p/15ca18113…
1.1 散列函数
散列函数(Hash Function)
是一种从任何一种数据中创建小的数字“指纹”的方法。一般来讲,散列函数的输入包含较多的信息(比如SHA-2最高接受(264-1)/8长度的字节字符串),经过散列算法后,映射为一个更小空间的散列值(通常为格式固定的字母和数字组成的字符串),其过程如下图所示。
散列函数在加密、校验等安全领域有广泛的应用,比如,SHA(Secure Hash Algorithm)家族在TLS和SSL、PGP、SSH、S/MIME和IPsec等安全协议中的广泛应用,MD5(Message-Digest Algorithm 5)在文件下载中校验的应用,此外,散列表是散列函数的一个主要应用。
1.2 散列表
散列表的核心优势是能够按照关键字快速存取数据记录,其插入、查找和删除的平均时间复杂度为O(1)。在实现上,将关键字通过散列函数映射为一个数组的地址,而将数据记录存储在该数组单元中。对同一散列函数,要求两个散列值如果是不相同的,那么这两个散列值的原始输入也是不相同的;但两个散列值如果是相同的,却并不能确定两个输入值是相同的,如果不同的输入得到的相同的散列值,这种情况就是“散列冲突”。一种常用的散列表结构如下图所示。
从图中可以看出,散列表的核心结构为:数组+链表。直接存储散列数据的结构称为节点,节点包含散列值、关键字、数据域和指针域(指向下一个节点)。如图中的节点13,其关键字经过散列函数得出在数组中的下标为0,数据域为13,指针域指向下一个节点6。节点在数组中存储的地址称为槽位,比如散列冲突时,37、62、52和92经过散列函数计算得出的槽位均为14。
那么,为了减少散列冲突,使数据元素在数组中均匀分布,在散列表的实现中,选择合适的散列函数至关重要,常见的散列函数包括直接寻址法、数字分析法、平方取中法、折叠法、随机数法及除留余数法等,其中,直接寻址法通过取key值或者key值的某个线性函数值作为散列地址,即hash(k)=k或者hash(k)=a*k+b;除留余数法通过取关键字被某个不大于散列表表长m的数p除后所得的余数为散列地址。即 hash(k)= k mod p, p < m。在JDK中常用除留余数法作为散列函数。
1.3 解决散列冲突
一个好的散列函数要求尽量减少散列冲突且计算简单,但冲突总是无法避免的,遇到冲突有哪些解决办法呢?
链地址法
上图中解决散列冲突的方法就是链地址法,即将散列到同一槽位的元素通过链表进行保存。JDK中就是使用这种方法来解决散列冲突的。
开放定址法
假定散列函数为H,经过散列函数运算H(key)后得到散列值为Hi,过程如下:
Hi =(H(key) + di) % m,其中i = 1,2,…,n.
常用的开放定址法包括线性探测法和平方探测法。
其区别在于di:
线程探测法:
di = 1,2,3,…,m-1.
平方探测法:
di =12,-12,22,-22,…,k2,-k2 ( k<=m/2 ).
再散列
顾名思义,在散列冲突发生后,采用新的散列函数对key进行重新散列。假定散列函数分别为RH1,RH2……,散列过程如下:
Hi=RH1(key), 其中 i=1,2,…,k
当散列值Hi=RH1(key)发生冲突时,再计算Hi=RH2(key)……,直到不冲突为止。