scrapy - 张文龙Iverson的收藏集 - 掘金

scrapy

张文龙Iverson

更多收藏集

3篇文章 · 0订阅

Scrapy框架的使用之Scrapy爬取新浪微博

前面讲解了Scrapy中各个模块基本使用方法以及代理池、Cookies池。接下来我们以一个反爬比较强的网站新浪微博为例，来实现一下Scrapy的大规模爬取。本次爬取的目标是新浪微博用户的公开基本信息，如用户昵称、头像、用户的关注、粉丝列表以及发布的微博等，这些信息抓取之后保存…

崔庆才丨静觅
7年前
6.6k
39
1

Scrapy 之断点续爬

这篇文章包含了爬虫思路，Spiders 逻辑，MySQL 存储，自定义模块进行存储和断点续爬。

vinegar19389
8年前
3.2k
64
评论

Scrapy 对接 Docker

环境配置问题可能一直会让我们头疼，包括如下几种情况。我们在本地写好了一个Scrapy爬虫项目，想要把它放到服务器上运行，但是服务器上没有安装Python环境。其他人给了我们一个Scrapy爬虫项目，项目使用包的版本和本地环境版本不一致，项目无法直接运行。我们需要同时管理不…

崔庆才丨静觅
7年前
6.1k
49
3