爬虫 - 七岁的收藏集 - 掘金

爬虫

更多收藏集

4篇文章 · 0订阅

Java网络爬虫实操（3）

pipeline是一种常见的算法模式，针对不断循环的耗时任务，如果要等一个循环结束后再轮到处理下一个任务的话，时间上有点浪费。所以，把耗时任务拆分为几个环节，只要一个环节完成了，就可以轮到下一个任务的那个环节就马上开始处理。不用等到这个耗时任务全部结束了才开始。我认为应用在…

sinkinka
7年前
2.6k
71
4

Java网络爬虫实操（1）

框架能够帮助我们处理一些基础的、与目标任务没直接联系的工作，让我们专注在目标任务上。尤其对于爬虫初学者来说，很快就能体会到操作爬虫带来的效果与成就感，而不必去操心额外的事情。等入了门，再尝试不依赖框架独立从零写一个爬虫程序，然后再去研究别人已经搭建好的爬虫框架，等到能阅读爬虫框…

sinkinka
7年前
4.7k
97
6

scrapy 爬妹子图

上一篇如果你认真看了写了，这一点代码相信你一眼就看懂了。如果不懂先看一下上一篇吧scrapy 爬电影抓取数据上面我们将详情页的图片列表地址存储保存了下来。我们需要一个专门下载每张图片的类。也就是Step1中提到的ImagesPipeline。它是用来处理下载图片的一个Pi…

EthanCui
7年前
2.7k
41
1

利用 Scrapy 爬取所有知乎用户详细信息并存至 MongoDB

如果我们从一个大 V 开始，首先可以获取他的个人信息，然后我们获取他的粉丝列表和关注列表，然后遍历列表中的每一个用户，进一步抓取每一个用户的信息还有他们各自的粉丝列表和关注列表，然后再进一步遍历获取到的列表中的每一个用户，进一步抓取他们的信息和关注粉丝列表，循环往复，不断递归，这样就可以做到一爬百，百爬万，万爬百万，通过社交关系自然形成了一个爬取网，这样就可以爬到所有的用户信息了。

腾讯云开发者
8年前
2.1k
75
3