1.爬虫是一个什么样的过程?
2.scrapy的工作原理?
3.scrapy的去重原理?
答:scrapy本身自带一个去重中间件,scrapy源码中可以找到一个dupfilters.py去重器,里面有个方法叫做request_seen,他在scheduler(发起请求的第一时间)的时候被调用,它的代码里面调用了request_fingerprint方法(就是给request生成一个指纹)。
就是给每一个传递过来的url生成一个固定长度的唯一哈希值,但是这种量级千万到亿的内存是可以应付的
答:scrapy本身自带一个去重中间件,scrapy源码中可以找到一个dupfilters.py去重器,里面有个方法叫做request_seen,他在scheduler(发起请求的第一时间)的时候被调用,它的代码里面调用了request_fingerprint方法(就是给request生成一个指纹)。
就是给每一个传递过来的url生成一个固定长度的唯一哈希值,但是这种量级千万到亿的内存是可以应付的