Spider - LOVEr45779的收藏集 - 掘金

Spider

更多收藏集

7篇文章 · 0订阅

Scrapy框架的使用之Scrapy对接Splash

在上一节我们实现了Scrapy对接Selenium抓取淘宝商品的过程，这是一种抓取JavaScript动态渲染页面的方式。除了Selenium，Splash也可以实现同样的功能。本节我们来了解Scrapy对接Splash来进行页面抓取的方式。请确保Splash已经正确安装并正…

崔庆才丨静觅
7年前
5.5k
21
评论

5 个用 Python 编写非阻塞 web 爬虫的方法

大家在读爬虫系列的帖子时常常问我怎样写出不阻塞的爬虫，这很难，但可行。通过实现一些小策略可以让你的网页爬虫活得更久。那么今天我就将和大家讨论这方面的话题。

一个普普通通简简单单
7年前
1.3k
24
评论

【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云上，有彩蛋

为啥要写这篇文章，就是为了让你上『最强王者』！ Scrapy的文章，好多好多，但是99%的文章都是，写完爬虫就完事儿了，至于后来怎么用？去哪里用？都没有交带。我这里就交代一种，可以把你的小虫子部署到服务器上！但是怎么部署，，有几篇文章说，用Scrapyd，但是，他们都只是简单…

皮爷撸码
7年前
5.3k
27
3

分布式爬虫原理之Scrapy分布式实现

接下来，我们会利用Scrapy-Redis来实现分布式的对接。请确保已经成功实现了Scrapy新浪微博爬虫，Scrapy-Redis库已经正确安装。要实现分布式部署，多台主机需要共享爬取队列和去重集合，而这两部分内容都是存于Redis数据库中的，我们需要搭建一个可公网访问的…

崔庆才丨静觅
7年前
8.8k
38
3

python爬取猫眼正在热映电影

手动闭合dd后通过etree.HTML把HTML转为XML，利用xpath语法可以快速匹配我们需要的节点。我们可以看到电影数据都是在dd里面，评分分为暂无评分和具体评分 2种，父元素是dl，而它的class[movie-list]在页面只有一个。自此已经可以请求网页并…

静然顾遗尘
7年前
1.8k
21
评论

妈妈再也不用担心爬虫被封号了！手把手教你搭建Cookies池

很多时候，在爬取没有登录的情况下，我们也可以访问一部分页面或请求一些接口，因为毕竟网站本身需要做SEO，不会对所有页面都设置登录限制。但是，不登录直接爬取会有一些弊端，弊端主要有以下两点。设置了登录限制的页面无法爬取。如某论坛设置了登录才可查看资源，某博客设置了登录才可查看…

崔庆才丨静觅
7年前
17k
293
13

【Python3网络爬虫开发实战】6-Ajax数据爬取-4-分析Ajax爬取今日头条街拍美图

本节中，我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法。这次要抓取的目标是今日头条的街拍美图，抓取完成之后，将每组图片分文件夹下载到本地并保存下来。 1. 准备工作在本节开始之前，请确保已经安装好requests库。如果没有安装，可以参考第1章。 2. 抓取…

崔庆才丨静觅
7年前
949
12
评论