<申明>:文章为本人原创,引用或者商用请联系本人,否则将追究责任
引言
目前爬虫技术已经发展的越来越成熟了,为了加快爬取效率和缩短时间,出现了一些如“scrapy”、“PySpider”等众多优秀的框架,甚至还出现了优秀的“八爪鱼”等集成性软件。
这些优秀的框架对学习者来说存在者一定的弊端,他们并不知道底层架构是什么样子的,具体的内容也不清楚,只会使用,出现错误却又不知道问题出在哪里,然后在那里懊恼很久,这对学习者来说是相当难受的。
那么,原生代码究竟是什么样子的呢?
带着这个问题,我自己做了一系列各种操作,找到了一条多线程通往全站爬取的道路。在这里欢迎各位大神评论及指点。
软件配置环境
好的猎人手里往往有一把好枪,程序员也是如此。这里我们使用到python3.9.2编译器和pycharm集成软件。
学习流程
我们主要分为了五个部分进行学习爬虫底层架构的过程,分别是: