爬虫 - undefined在掘金36409的收藏集 - 掘金

爬虫

undefined在掘金36409

更多收藏集

6篇文章 · 0订阅

Scrapy框架的使用之Scrapy通用爬虫

通过Scrapy，我们可以轻松地完成一个站点爬虫的编写。但如果抓取的站点量非常大，比如爬取各大媒体的新闻信息，多个Spider则可能包含很多重复代码。如果我们将各个站点的Spider的公共部分保留下来，不同的部分提取出来作为单独的配置，如爬取规则、页面解析方式等抽离出来做成一…

崔庆才丨静觅
7年前
9.3k
49
5

scrapy-redis实现分布式爬虫

Scheduler调度器从redis获取请求的url地址，传递给Downloader下载器下载数据网页，然后把数据网页传递给spiders爬虫提取数据逻辑器处理，最后把结构化保存数据的item数据对象经过itemPipeLine保存在redis数据库。其他机器的item Pr…

Harhao
6年前
2.6k
5
评论

scrapy-redis实现分布式爬虫