【python面试】爬虫答：scrapy本身自带一个去重中间件，scrapy源码中可以找到一个dupfilters.py

1.爬虫是一个什么样的过程？

2.scrapy的工作原理？

3.scrapy的去重原理？

答：scrapy本身自带一个去重中间件，scrapy源码中可以找到一个dupfilters.py去重器，里面有个方法叫做request_seen,他在scheduler(发起请求的第一时间)的时候被调用，它的代码里面调用了request_fingerprint方法(就是给request生成一个指纹)。

就是给每一个传递过来的url生成一个固定长度的唯一哈希值，但是这种量级千万到亿的内存是可以应付的

4.Python如何爬取实时变化的WebSocket数据?

答：juejin.cn/post/684490…

【python面试】爬虫

1.爬虫是一个什么样的过程？

2.scrapy的工作原理？

3.scrapy的去重原理？

4.Python如何爬取实时变化的WebSocket数据?

5.爬虫如何实现断点徐爬？