Scrapy ----崔庆才 - jinshuncheng的收藏集 - 掘金

Scrapy ----崔庆才

更多收藏集

10篇文章 · 0订阅

Scrapy 对接 Docker

环境配置问题可能一直会让我们头疼，包括如下几种情况。我们在本地写好了一个Scrapy爬虫项目，想要把它放到服务器上运行，但是服务器上没有安装Python环境。其他人给了我们一个Scrapy爬虫项目，项目使用包的版本和本地环境版本不一致，项目无法直接运行。我们需要同时管理不…

崔庆才丨静觅
7年前
6.1k
49
3

Scrapy框架的使用之Scrapy框架介绍

Scrapy是一个基于Twisted的异步处理框架，是纯Python实现的爬虫框架，其架构清晰，模块之间的耦合程度低，可扩展性极强，可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 1. 架构介绍首先我们看看Scrapy框架的架构，如下图所示。它可以…

崔庆才丨静觅
7年前
3.6k
18
评论

Scrapy框架的使用之Scrapy对接Splash

在上一节我们实现了Scrapy对接Selenium抓取淘宝商品的过程，这是一种抓取JavaScript动态渲染页面的方式。除了Selenium，Splash也可以实现同样的功能。本节我们来了解Scrapy对接Splash来进行页面抓取的方式。请确保Splash已经正确安装并正…

崔庆才丨静觅
7年前
5.5k
21
评论

Scrapy框架的使用之Scrapy入门

接下来介绍一个简单的项目，完成一遍Scrapy抓取流程。通过这个过程，我们可以对Scrapy的基本用法和原理有大体了解。本节要完成的任务如下。创建一个Scrapy项目。创建一个蜘蛛来抓取站点和处理数据。通过命令行将抓取的内容导出。将抓取的内容保存的到的MongoDB数…

崔庆才丨静觅
7年前
2.3k
31
3

Scrapy框架之利用ImagesPipeline下载图片

1.ImagesPipeline简介 Scrapy用ImagesPipeline类提供一种方便的方式来下载和存储图片。特点：将下载图片转换成通用的JPG和RGB格式避免重复下载缩略图生成图片大小过滤 2.ImagesPipeline工作流程当使用图片管道 Image…

huangqinjian
8年前
2.0k
38
2

Scrapy框架之利用ImagesPipeline下载图片

Scrapy框架的使用之Item Pipeline的用法

Item Pipeline是项目管道，本节我们详细了解它的用法。首先我们看看Item Pipeline在Scrapy中的架构，如下图所示。图中的最左侧即为Item Pipeline，它的调用发生在Spider产生Item之后。当Spider解析完Response之后，Ite…

崔庆才丨静觅
7年前
14k
11
1

Scrapy框架的使用之Spider Middleware的用法

Spider Middleware是介入到Scrapy的Spider处理机制的钩子框架。我们首先来看看它的架构，如下图所示。当Downloader生成Response之后，Response会被发送给Spider，在发送给Spider之前，Response会首先经过Spider…

崔庆才丨静觅
7年前
3.8k
9
评论

Scrapy框架的使用之Scrapy爬取新浪微博

前面讲解了Scrapy中各个模块基本使用方法以及代理池、Cookies池。接下来我们以一个反爬比较强的网站新浪微博为例，来实现一下Scrapy的大规模爬取。本次爬取的目标是新浪微博用户的公开基本信息，如用户昵称、头像、用户的关注、粉丝列表以及发布的微博等，这些信息抓取之后保存…

崔庆才丨静觅
7年前
6.6k
39
1

Scrapy框架的使用之Scrapy通用爬虫

通过Scrapy，我们可以轻松地完成一个站点爬虫的编写。但如果抓取的站点量非常大，比如爬取各大媒体的新闻信息，多个Spider则可能包含很多重复代码。如果我们将各个站点的Spider的公共部分保留下来，不同的部分提取出来作为单独的配置，如爬取规则、页面解析方式等抽离出来做成一…

崔庆才丨静觅
7年前
9.3k
49
5

Scrapy框架的使用之Scrapy对接硒

Scrapy抓取页面的方式和请求库类似，都是直接模拟HTTP请求，而Scrapy也不能抓取的JavaScript动态渲染的页面。在前文中抓取的JavaScript渲染的页面有两种方式。一种是分析的Ajax请求，找到其对应的接口抓取，Scrapy同样可以用此种方式抓取。另一种是直…

崔庆才丨静觅
7年前
1.4k
13
2