一致性Hash算本节简单讨论一下Hash(哈希)算法以及它的常见应用场景，之所以写此篇，是因为在群里看见相关的讨论。 H

简介

本节简单讨论一下Hash(哈希)算法以及它的常见应用场景，之所以写此篇，是因为在群里看见相关的讨论。

Hash算法与一致性Hash其使用范围是很广泛的，本文抛砖引玉一下。

Hash算法

什么是Hash算法？

一句话定义，将任意长度的二进制数据映射成固定长度的二进制值串，这种映射规则就是哈希算法。

想重头设计一个优秀Hash算法并不容易，它需要满足一些基本条件

1.不可逆，无法通过Hash算法处理过的二进制值(哈希值)串反推出原始值
2.数据敏感，原始数据有一些微小的变化都会让Hash后的二进制值出现较大变化
3.冲突尽量小，根据「鸽巢原理」，任何Hash算法都不可能完全没有冲突，但优秀的Hash算法会让冲突的概率很小
4.效率高，Hash算法要可以比较高效的计算出哈希值

什么是鸽巢原理？

很简单，总共只有10个巢，但却有11只鸽子，那么肯定会出现两个鸽子在同一个巢的情况。

引申到Hash算法中，因为Hash算法要将任意长度的二进制值都映射成固定长度的哈希值，固定长度哈希值其变化是有限的，而任意长度的原始数据是无限的，相当于有限的鸽巢与无限的鸽子，所以任意Hash算法在理论上都是无法避免冲突的，但Hash算法生成的哈希值越长，冲突的概率越小，但要生成越长的哈希值，需要的运算时间也就越长。

常见的Hash算法有很多，如MD5、SHA、AES等等

Hash算法有很多应用场景，如作为唯一标识、给密码安全加密等等，但为了配合文章主题，这里主要从分布式这个方向来讨论。

一个经典的问题：现在图库中有1亿张图片，你怎么可以快速判断某张图片是否存在于图库中？

取模应用

思考一下1亿图片图库是否存在某图片的问题。

1亿张图片，单台物理机没戏，所以需要多台物理机配合才能处理这种规模的数据。

具体怎么做？

先准备n台物理机，每台物理机只维护部分图片对应的散列表(利用散列算法，通过key可以快速找到value的一种数据结构)，我们每次从图库中读取一张图片，都利用Hash算法计算唯一标识，并利用这个唯一表示构建散列表的key，但问题是，一张图片的信息放在哪个物理机中呢？

搭建一个redis，如根据图片名称，如图片名称以1结尾的，放到1号物理机，其他的类推？这种方式并不好，最好的方式就是利用哈希与取模，具体做法如下：

我们每次从图库中取一张图片，利用Hash算法获得哈希值，这相当于图片的唯一标识，利用它与机器的个数n进行求余运算，取其模作为作为要操作物理机的编号，假设取模获得的值是x，则将图片的唯一标识与路径存放在第x个物理机中。

而查询一种图片是否存在图库中，其过程也类似，先对图片做Hash，获得哈希值后，求余取模获得对应的物理机编号，再去这台物理机，通过散列表判断这个哈希值是否存在，从而就可以判断图片是否存在。

通过上面的结构，就可以快速判断1亿图片图库是否存在某图片了。

这里再讨论一下1亿张图片大概需要多少物理机。

假设我们通过MD5处理，获得图片的MD5值，这个值会占128bit，即16字节，而文件路径长度上限为256字节，因为散列表会出现冲突的可能，所以还需要利用链表来解决冲突，而列表的指针预估占8个字节，这里对文件路径占的字节数取平均值来估算，一张图片构建散列表元素的大小大约需要152字节(256/2+16+8)。

一台物理机，内存如果为2GB，那么大概可以处理1400万张图片(2GB/152字节)，那处理1亿张图片，需要十几台物理机，这里还没有涉及装载因子的概念，所谓装载因子是指散列表中的数据超过装载因子定义的值，就需要进行扩容了。

散列表:可以通过数组的方式来简单理解散列表，数组可以通过下标找到对应的值，其时间复杂度为O(1)，散列表也是如此，散列表会申请一段内存连续内存空间，然后通过散列函数获得下标，这个下标就可以定位出该内存空间的某个位置，其时间复杂度也为O(1)，散列函数没有Hash函数那么复杂，它只要求算法可以将对应的值比较平均的分配到对应的内存空间则可。