python - 上古之人的收藏集 - 掘金

python

更多收藏集

7篇文章 · 0订阅

Scrapy框架的使用之Scrapy通用爬虫

通过Scrapy，我们可以轻松地完成一个站点爬虫的编写。但如果抓取的站点量非常大，比如爬取各大媒体的新闻信息，多个Spider则可能包含很多重复代码。如果我们将各个站点的Spider的公共部分保留下来，不同的部分提取出来作为单独的配置，如爬取规则、页面解析方式等抽离出来做成一…

崔庆才丨静觅
7年前
9.3k
49
5

Scrapy 对接 Docker

环境配置问题可能一直会让我们头疼，包括如下几种情况。我们在本地写好了一个Scrapy爬虫项目，想要把它放到服务器上运行，但是服务器上没有安装Python环境。其他人给了我们一个Scrapy爬虫项目，项目使用包的版本和本地环境版本不一致，项目无法直接运行。我们需要同时管理不…

崔庆才丨静觅
7年前
6.1k
49
3

彻底搞懂Scrapy的中间件（一）

中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改，从而开发出适应不同情况的爬虫。 “中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数据，做一些修改…

青南
7年前
7.6k
19
评论

分布式爬虫的部署之Gerapy分布式管理

我们可以通过Scrapyd-Client将Scrapy项目部署到Scrapyd上，并且可以通过Scrapyd API来控制Scrapy的运行。那么，我们是否可以做到更优化？方法是否可以更方便可控？我们重新分析一下当前可以优化的问题。使用Scrapyd-Client部署时，需…

崔庆才丨静觅
7年前
2.6k
24
评论

【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云上，有彩蛋

为啥要写这篇文章，就是为了让你上『最强王者』！ Scrapy的文章，好多好多，但是99%的文章都是，写完爬虫就完事儿了，至于后来怎么用？去哪里用？都没有交带。我这里就交代一种，可以把你的小虫子部署到服务器上！但是怎么部署，，有几篇文章说，用Scrapyd，但是，他们都只是简单…

皮爷撸码
7年前
5.3k
27
3

Python操作MongoDB看这一篇就够了

MongoDB是由C++语言编写的非关系型数据库，是一个基于分布式文件存储的开源数据库系统，其内容存储形式类似JSON对象，它的字段值可以包含其他文档、数组及文档数组，非常灵活。在这一节中，我们就来看看Python 3下MongoDB的存储操作。 1. 准备工作在开始之前，请…

崔庆才丨静觅
7年前
93k
282
8

Scrapy框架的使用之Item Pipeline的用法

Item Pipeline是项目管道，本节我们详细了解它的用法。首先我们看看Item Pipeline在Scrapy中的架构，如下图所示。图中的最左侧即为Item Pipeline，它的调用发生在Spider产生Item之后。当Spider解析完Response之后，Ite…

崔庆才丨静觅
7年前
14k
11
1