爬虫 - DOORDIE29143的收藏集 - 掘金

爬虫

更多收藏集

4篇文章 · 0订阅

python豆瓣多线程爬虫加IP代理（免费的一般是不稳定）

最近研究了一下python爬虫，所以写一下自己的经验，爬取豆瓣电影的信息。（第一次写这个！） 4.下面代码是爬取信息所用的时间。 6.爬取代理ip的信息放入队列里，方便爬取豆瓣信息时获取。 8.开始爬取豆瓣top250数据的链接。 9.是时候爬取真正的信息了，爬取的信息写入数组…

蕞簡單de漩嵂
7年前
4.6k
18
6

scrapy 爬电影抓取数据

默认scrapy的环境是安装好的。我们在终端里输入scrapy startproject 工程名新建一个爬虫项目，scrapy会为我们初始化一个基本结构如下图：其中Id97Index.py是我们编写逻辑的文件，也是我们自己建的。除此之外都会在新建项目时生成。该实体类会在后面…

EthanCui
8年前
1.8k
30
评论

scrapy 爬妹子图

上一篇如果你认真看了写了，这一点代码相信你一眼就看懂了。如果不懂先看一下上一篇吧scrapy 爬电影抓取数据上面我们将详情页的图片列表地址存储保存了下来。我们需要一个专门下载每张图片的类。也就是Step1中提到的ImagesPipeline。它是用来处理下载图片的一个Pi…

EthanCui
8年前
2.8k
41
1

左手用R右手Python系列——多进程/线程数据抓取与网页请求

这一篇涉及到如何在网页请求环节使用多进程任务处理功能，因为网页请求涉及到两个重要问题：一是多进程的并发操作会面临更大的反爬风险，所以面临更严峻的反爬风险，二是抓取网页数据需要获取返回值，而且这些返回值需要汇集成一个关系表（数据框）（区别于上一篇中的二进制文件下载，文件下载仅仅执…

一个普普通通简简单单
8年前
586
11
评论