python爬虫，学习路径拆解及资源推荐（第三篇：工程化爬虫）( 想要学习Python？Python学习交流群：1039

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云作者：昱良

( 想要学习Python？Python学习交流群：1039649593，满足你的需求，资料都已经上传群文件流，可以自行下载！还有海量最新2020python学习资料。 ) 在这里插入图片描述

掌握前面的技术你就可以实现轻量级的爬虫，一般量级的数据和代码基本没有问题。

但是在面对复杂情况的时候表现不尽人意，此时，强大的爬虫框架就非常有用了。

首先是出身名门的Apache顶级项目Nutch，它提供了我们运行自己的搜索引擎所需的全部工具。

支持分布式抓取，并有Hadoop支持，可以进行多机分布抓取，存储和索引。

另外很吸引人的一点在于，它提供了一种插件框架，使得其对各种网页内容的解析、各种数据的采集、查询、集群、过滤等功能能够方便的进行扩展。

其次是GitHub上众人star的scrapy，scary是一个功能非常强大的爬虫框架。

它不仅能便捷地构建request，还有强大的 selector 能够方便地解析 response，然而它最让人惊喜的还是它超高的性能，让你可以将爬虫工程化、模块化。

学会scrapy，你可以自己去搭建一些爬虫框架，你就基本具备爬虫工程师的思维了。

最后Pyspider作为人气飙升的国内大神开发的框架，满足了绝大多数Python爬虫的需求 —— 定向抓取，结构化化解析。

它能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行爬取结果的存储等。

其功能强大到更像一个产品而不是一个框架。

这是三个最有代表性的爬虫框架，它们都有远超别人的有点，比如Nutch天生的搜索引擎解决方案、Pyspider产品级的WebUI、Scrapy最灵活的定制化爬取。

建议先从最接近爬虫本质的框架scary学起，再去接触人性化的Pyspider，为搜索引擎而生的Nutch。

推荐爬虫框架资源：