爬虫书目推荐

144 阅读4分钟

近日,爬虫大佬崔庆才的新作《Python3网络爬虫开发实战》第二版已经上市,这本书的第一版可谓是学习爬虫的必备指南。这本新书是上一版的延续之作,在上一版的基础上更新了许多的内容。

ca2efc072da82167a2faeeadc92c8b4.jpg 下面我分享一下我与爬虫的故事。 初识爬虫是在本科毕业之际,由于本科毕业论文写作的需要,我需要获取到一些与房屋租金相关的数据来进行分析。 于是我开始在网上查找如何获取这类的数据,通过查找,我了解到爬虫技术,也就由此了解到这一本书——崔大的《Python3网络爬虫开发实战》。当时这本书已经在豆瓣获得9.0的评分,同时在知乎各个回答下也是好评如潮。

image.png

仅有一点编程经验的我抱着试一试的态度买回来了这本书。书到手后,自学了一段时间,发现这本书对新手非常友好,仅需要一点Python编程基础,没有对前端了解过也可以进行学习,因为书中已经介绍了HTTP基本原理和Web网页的相关基础内容。于是我跟着这本书学习,经过不断的练习,最终我写出了自己的程序,成功的从链家网爬取到3万多条所需的租房数据,最后我也顺利地完成了毕业论文(ps:顺便说一声,我的毕业论文还拿到了当年的校级优秀毕业论文)。

在学习的过程中,我便关注了崔大的微信公众号。在上月的16日,崔大发推宣布该书第二版的出版,出于对崔大的信任和进一步学习的心态,我当天就下单了第二版。这次拿到手后,我发现第二版比第一版更加厚实,拿在手里更重了(平时都可以拿出去防身)。在我看来这本书相比于其他的编程书来讲最大的优势就是全面,同时又具有深度。第二版比之第一版把这个优点更是表现得淋漓尽致,书中不仅介绍丰富的原理内容,也提供大量可供操作的案例进行辅助学习。

image.png

互联网行业发展迅速,爬虫也不例外。从第一版出版到现在已经三年多快接近四年的时间,由于第一版中引用的许多案例网站和服务,目前都已经改版或者停止维护,所以这将导致第一版中的代码已经不能实现;同时深度学习、Javascript技术的发展以及大量APP端爬虫的需求,所以第一版已不能够满足目前读者学习爬虫时的需求,由此崔大开始写作第二版的内容,来着手解决上述问题,也就有了该书第二版的问世。根据崔大的介绍,第二版相比之第一主要增加了异步爬虫、JavaScript 逆向、App 逆向、页面智能解析、深度学习识别验证码、Kubernetes 运维及部署等知识点,另外还配备针对性的练习平台scrape.center,可以方便小伙伴们的学习。在有需要练习每个章节的内容的需求时,直接登录该平台,点击相应的章节,与正常网页的爬取一致,编写完代码后直接运行代码就可以实现所学的内容,同时由于该平台为崔大自己构建,无需担心法律上的问题,也无需担心书中代码失效的问题。

书到手已经快一个月的时间,虽然目前还没有时间继续深入学习,但是在寒假一定趁时间有空余提升自己的技术,也能更好的进行数据挖掘。洋洋洒洒也写了1000字,下面再简要总结一下新书比之第一版的特色:

1.第二版相比于第一版,首先构建了新的案例平台,可以供给学习者学习使用。

2.将目前热门的一些技术与爬虫结合,例如深度学习针对验证码的识别。

3.更新丰富书中的原有的一些内容,例如请求库、解析库等。

4.增加了一些目前爬虫更侧重的内容,例如Android逆向、页面智能解析、爬虫管理和运维解决方案等

最后祝崔大新作大卖!