布隆过滤器

426 阅读3分钟

布隆过滤器

  1. 本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构。
  2. 特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”。
  3. 相比于传统的 List、Set、Map 等数据结构,它更高效、占用空间更少,但是缺点是其返回的结果是概率性的,而不是确切的。

使用场景

  1. 布隆过滤器在NoSQL数据库领域中应用的非常广泛,当用户来查询某一个row时,可以先通过内存中的布隆过滤器过滤掉大量不存在的row请求,然后去再磁盘进行查询.布隆过滤器说某个值不存在时,那肯定就是不存在,可以显著降低数据库IO请求数量.
  2. 给用户推荐新闻,当用户看过的新闻,肯定会被过滤掉,对于没有看多的新闻,可能会过滤极少的一部分(误判)
  3. 爬虫url去重

原理

每个布隆过滤器对应到的数据结构是一个大型的数组和几个不一样的无偏hash函数,所谓无偏就是能够把元素的和hash 值算得比较均匀,让元素被hash 映射到位数组中的位置比较随机。布隆过滤器使用空间大小与错误率和元素值有关。错误率越低占用空间越大。

添加: 值到布隆过滤器

  1)向布隆过滤器添加key,会使用 f、g、h hash函数对key算出一个整数索引,然后对长度取余

  2)每个hash函数都会算出一个不同的位置,把算出的位置都设置成1就完成了布隆过滤器添加过程

查询: 布隆过滤器值

  1)当查询某个key时,先用hash函数算出一个整数索引,然后对长度取余

  2)当你有一个不为1时肯定不存在这个key,当全部都为1时可能有这个key 。

限流

基于Redis的setnx的操作

我们在使用Redis的分布式锁的时候,大家都知道是依靠了setnx的指令,在CAS(Compare and swap)的操作的时候,同时给指定的key设置了过期实践(expire),我们在限流的主要目的就是为了在单位时间内,有且仅有N数量的请求能够访问我的代码程序。所以依靠setnx可以很轻松的做到这方面的功能。比如我们需要在10秒内限定20个请求,那么我们在setnx的时候可以设置过期时间10,当请求的setnx数量达到20时候即达到了限流效果。当然这种做法的弊端是很多的,比如当统计1-10秒的时候,无法统计2-11秒之内,如果需要统计N秒内的M个请求,那么我们Redis中需要保持N个key等等问题。

基于Redis的数据结构zset

其实限流涉及的最主要的就是滑动窗口,上面也提到1-10怎么变成2-11。其实也就是起始值和末端值都各+1即可。

而我们如果用Redis的list数据结构可以轻而易举的实现该功能。 我们可以将请求打造成一个zset数组,当每一次请求进来的时候,value保持唯一,可以用UUID生成,而score可以用当前时间戳表示,因为score我们可以用来计算当前时间戳之内有多少的请求数量。而zset数据结构也提供了range方法让我们可以很轻易的获取到2个时间戳内有多少请求。

漏斗限流

Redis 4.0 提供了一个限流Redis模块,它叫Redis-Cell 。该模块也使用了漏斗算法,并提供了原子的限流指令cl.throttle