爬虫去重策略

188 阅读1分钟
  1. 将访问过的url保存到数据库中
  2. 将访问过的url保存到set中,只需要O(1)的代价就可以查询url 100000000 * 2byte * 50个字符/1024/1024/1024=8G
  3. url经过md5等方法哈希后保存到set中 (scrapy使用此方法)
  4. 用bitmap方法,将访问过的url通过hash函数映射到某一位
  5. bloomfilter方法对bitmao进行改进,多重hash函数降低冲突

参考: Python分布式爬虫打造搜索引擎