爬虫 - 齐欢的收藏集 - 掘金

爬虫

更多收藏集

2篇文章 · 0订阅

爬虫(三)－客户端爬取Android SDK发布

通过前两篇文章，我们深入论述了后台爬取的痛点，同时提出了对客户端方案可行性的思考。今天我们就来介绍一下全球第一个客户端爬取平台，今天我们来揭开它的神秘面纱！前两篇文章：一篇文章了解爬虫技术现状爬虫技术(二)－客户端爬虫 DSpider平台 DSpider是客户端爬取平台台,官…

wendux
8年前
5.9k
103
4

爬虫(三)－客户端爬取Android SDK发布

利用 Scrapy 爬取所有知乎用户详细信息并存至 MongoDB

如果我们从一个大 V 开始，首先可以获取他的个人信息，然后我们获取他的粉丝列表和关注列表，然后遍历列表中的每一个用户，进一步抓取每一个用户的信息还有他们各自的粉丝列表和关注列表，然后再进一步遍历获取到的列表中的每一个用户，进一步抓取他们的信息和关注粉丝列表，循环往复，不断递归，这样就可以做到一爬百，百爬万，万爬百万，通过社交关系自然形成了一个爬取网，这样就可以爬到所有的用户信息了。

腾讯云开发者
8年前
2.2k
75
3