如何对千亿级别的skuId进行去重呢?👈

skuId限于long型数值,由于数据量大,使用单机jvm进行去重不太现实,所以一般都需要借助第三方工具来处理,如redis等。

一般去重可用的手段有:
1、布隆过滤器 及 布谷鸟过滤器,优点:性能好,占用内存小:准确率一般可以达到百分之九十五以上;缺点:准确率达不到百分之百,对准确率有要求的慎选。
2、bitmap,由于skuId是整型数据,所以可以用bit位来表示某一个具体的skuId,一个bit位表示一个整型数可以大大节省内存,redis中一个bitMap最多可以表示到2的32次方减1的数据,大约从0到40亿。

千亿级别的数据可以用30个key的bitMap覆盖,那个key覆盖一个40亿的数据段👆💪
展开
代胜凯于2019-01-24 13:44发布的图片
评论