redis - love_coder的收藏集 - 掘金

redis

更多收藏集

1篇文章 · 0订阅

redis入门到精通系列（十二）：看完这一篇文章别再说不懂布隆过滤器

在对大量网站进行网页爬虫时，一般需要两步，先对url进行搜集，再对每一个url进行爬取。这里很有可能搜集到的url是重复的，因此需要在第一步对url进行去重。如何去重呢？你会想到将url放进HashSet中，但是如果url的数量过大，HashSet是撑不住的。上面的这些场景，…

Java鱼仔
4年前
871
6
评论

redis入门到精通系列（十二）：看完这一篇文章别再说不懂布隆过滤器