【python面试】爬虫

409 阅读1分钟

1.爬虫是一个什么样的过程?

2.scrapy的工作原理?

3.scrapy的去重原理?

答:scrapy本身自带一个去重中间件,scrapy源码中可以找到一个dupfilters.py去重器,里面有个方法叫做request_seen,他在scheduler(发起请求的第一时间)的时候被调用,它的代码里面调用了request_fingerprint方法(就是给request生成一个指纹)。

就是给每一个传递过来的url生成一个固定长度的唯一哈希值,但是这种量级千万到亿的内存是可以应付的

4.Python如何爬取实时变化的WebSocket数据?

答:juejin.cn/post/684490…

5.爬虫如何实现断点徐爬?