阅读 30

python爬虫,学习路径拆解及资源推荐(第三篇:工程化爬虫)

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云 作者:昱良

( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 ) 在这里插入图片描述

工程化爬虫

掌握前面的技术你就可以实现轻量级的爬虫,一般量级的数据和代码基本没有问题。

但是在面对复杂情况的时候表现不尽人意,此时,强大的爬虫框架就非常有用了。

首先是出身名门的Apache顶级项目Nutch,它提供了我们运行自己的搜索引擎所需的全部工具。

支持分布式抓取,并有Hadoop支持,可以进行多机分布抓取,存储和索引。

另外很吸引人的一点在于,它提供了一种插件框架,使得其对各种网页内容的解析、各种数据的采集、查询、集群、过滤等功能能够方便的进行扩展。

其次是GitHub上众人star的scrapy,scary是一个功能非常强大的爬虫框架。

它不仅能便捷地构建request,还有强大的 selector 能够方便地解析 response,然而它最让人惊喜的还是它超高的性能,让你可以将爬虫工程化、模块化。

学会scrapy,你可以自己去搭建一些爬虫框架,你就基本具备爬虫工程师的思维了。

最后Pyspider作为人气飙升的国内大神开发的框架,满足了绝大多数Python爬虫的需求 —— 定向抓取,结构化化解析。

它能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储等。

其功能强大到更像一个产品而不是一个框架。

这是三个最有代表性的爬虫框架,它们都有远超别人的有点,比如Nutch天生的搜索引擎解决方案、Pyspider产品级的WebUI、Scrapy最灵活的定制化爬取。

建议先从最接近爬虫本质的框架scary学起,再去接触人性化的Pyspider,为搜索引擎而生的Nutch。

推荐爬虫框架资源:

在这里插入图片描述

文章分类
开发工具
文章标签