5分钟算法 - 布隆过滤器

2025-02-16 151 阅读3分钟

是什么

布隆过滤器（Bloom Filter）是一种空间效率很高的概率型数据结构，由 Burton Howard Bloom 在 1970 年提出，用于判断一个元素是否属于一个集合。能确定一个元素一定不在集合内，但不能确定元素一定在集合内

基本原理

数据结构：布隆过滤器本质上是一个位数组，初始时所有位都设置为 0。同时，它还依赖于多个哈希函数，这些哈希函数可以将元素映射到位数组的不同位置。
添加元素：当要向布隆过滤器中添加一个元素时，会通过多个哈希函数对该元素进行计算，得到多个哈希值，然后将位数组中对应的位置设置为 1。
查询元素：在判断一个元素是否在集合中时，同样使用这些哈希函数对元素进行计算，查看对应的位是否都为 1。如果所有对应位都是 1，则认为该元素可能在集合中；如果有任何一位为 0，则可以确定该元素一定不在集合中。

特点

空间效率高：相比于传统的数据结构，如哈希表，布隆过滤器在存储大量数据时可以显著节省空间。因为它只需要记录元素对应的位数组中的位置，而不需要存储元素本身。
存在误判率：布隆过滤器的一个重要特点是存在一定的误判率，即可能会把一个不在集合中的元素误判为在集合中，但不会把在集合中的元素误判为不在集合中。误判率与位数组的大小、哈希函数的个数以及插入元素的数量等因素有关。
支持快速查询：可以在常数时间内完成元素的查询操作，时间复杂度为O(k)，其中 k 是哈希函数的个数，通常 k 是一个较小的常数，所以查询速度非常快。
不支持删除操作：一般情况下，布隆过滤器不支持直接删除元素。因为删除一个元素可能会影响其他元素的判断结果，导致误判率升高。不过，有一些改进的布隆过滤器方案可以支持有限的删除操作。

适用的场景

网页爬虫：用于记录已经访问过的网页 URL，避免重复访问。由于网页数量巨大，使用布隆过滤器可以高效地判断一个 URL 是否已经被爬取过，节省大量的存储空间和查询时间。
数据库系统：可以用于快速判断某个数据是否存在于数据库中，减少对数据库的查询次数，提高查询性能。例如，在分布式数据库中，布隆过滤器可以帮助快速定位数据所在的节点，减少数据的跨节点查询。
垃圾邮件过滤：通过布隆过滤器记录已知的垃圾邮件地址或特征，在收到邮件时快速判断是否为垃圾邮件，提高过滤效率。
缓存系统：用于判断缓存中是否存在某个数据，避免不必要的缓存查询。如果布隆过滤器判断数据不在缓存中，则可以直接去后端数据源获取数据，减少缓存穿透的问题。

相关资料