rsync:一个同步文件的工具
rsync解决的问题:如果要同步的文件只想传不同的部分,就需要对两边的文件做差异对比,但是这个问题在两台不同的机器上,无法做差异对比。如果做差异对比,就要把一个文件传到另一台机器上做diff,但这样一来,就传了整个文件,这与前面只想传输不同部分的初衷相背
假设同步源文件名为fileSrc,同步目的文件叫fileDst
-
分块Checksum算法:会把fileDst的文件平均切分成若干个小块,比如每块512个字节(最后一块会小于这个数),然后对每块计算两个checksum
- rolling checksum,弱checksum,32位的checksum,其使用的是Mark Adler发明的adler-32算法
- md5(以前使用md4):强checksum,128位
为什么使用两个算法
弱的adler32算法碰撞概率太高,还要引入强的checksum算法以保证两文件块是相同的
弱的checksum是用来区别不同,而强的是用来确认相同
- 传输算法:同步目标端会把fileDst的一个checksum列表传给同步源,这个列表里包括了三个东西,rolling checksum(32bits),md5 checksume(128bits),文件块编号
同步源机器拿到了这个列表后,会对fileSrc做同样的checksum,然后和fileDst的checksum做对比,这样就知道哪些文件块改变了
两个疑问:
- 如果fileSrc这边在文件中间加了一个字符,这样后面的文件块都会位移一个字符,这样就完全和fileDst这边的不一样,但理论上来说,应该只需要传一个字符
- 如果这个checksum列表特别长,而两边的相同的文件块可能并不是一样的顺序,那就需要查找,线性的查找起来应该特别慢
- checksum查找算法
同步源端拿到fileDst的checksum数组后,会把这个数据存到一个hash table中,用rolling checksum做hash,以便获得O(1)时间复杂度的查找性能。这个hash table是16bits的,所以,hash table的尺寸是2的16次方,对rolling checksum的hash会被散列到0 到 2^16 – 1中的某个整数值,如果碰撞则以链表形式解决冲突
-
比对算法
- 取fileSrc的第一个文件块(假设的是512个长度),也就是从fileSrc的第1个字节到第512个字节,取出来后做rolling checksum计算。计算好的值到hash表中查
- 如果查到了,说明发现在fileDst中有潜在相同的文件块,于是就再比较md5的checksum。如果rolling checksum和md5 checksum都相同,这说明在fileDst中有相同的块,需要记下这一块在fileDst下的文件编号
- 如果fileSrc的rolling checksum 没有在hash table中找到,那就不用算md5 checksum了。表示这一块中有不同的信息。核心来了,只要rolling checksum 或 md5 checksum 其中有一个在fileDst的checksum hash表中找不到匹配项,那么就会触发算法对fileSrc的rolling动作。算法会住后step 1个字节,取fileSrc中字节2-513的文件块要做checksum,跳转到第一步
- 这样,就可以找出fileSrc相邻两次匹配中的那些文本字符,这些就是要往同步目标端传的文件内容
rolling checksum算法
当往后面step 1个字符的时候,不用全部重新计算所有的checksum,也就是说,从 [0, 512] rolling 到 [1, 513] 时,不需要重新计算从1到513的checksum,而是重用 [0,512]的checksum直接算出来。
有一个数字:12345678,假设我们以5个长度作为一个块,那么,第一个块就是 12345 ,12345可以表示为:
1 * 10^4 + 2 * 10^3 + 3 * 10^2 + 4 * 10^1 + 5 * 10^0 = 12345
要step 1步,也就是要得到 23456,不必计算
2 * 10^4 + 3 * 10^3 + 4 * 10^2 + 5 * 10^1 + 6 * 10^0
而是
(12345 - 1 * 10^4) * 10 + 6 * 10 ^0
把12345最左边第一位去掉,然后,再加上最右边的一位
公式
hash ( t[0, m-1] ) = t[0] * b^(m-1) + t[1] * b^[m-2] ..... t[m-1] * b^0
hash( t[1, m] ) = hash ( t[0, m-1] ) - t[0] * b^(m-1) + t[m] * b ^0
其中的 b是一个常数基数,一般取值为 256