python爬虫原生代码学习(一)

396 阅读2分钟

<申明>:文章为本人原创,引用或者商用请联系本人,否则将追究责任

引言

目前爬虫技术已经发展的越来越成熟了,为了加快爬取效率和缩短时间,出现了一些如“scrapy”、“PySpider”等众多优秀的框架,甚至还出现了优秀的“八爪鱼”等集成性软件。

这些优秀的框架对学习者来说存在者一定的弊端,他们并不知道底层架构是什么样子的,具体的内容也不清楚,只会使用,出现错误却又不知道问题出在哪里,然后在那里懊恼很久,这对学习者来说是相当难受的。

那么,原生代码究竟是什么样子的呢?

带着这个问题,我自己做了一系列各种操作,找到了一条多线程通往全站爬取的道路。在这里欢迎各位大神评论及指点。

软件配置环境

好的猎人手里往往有一把好枪,程序员也是如此。这里我们使用到python3.9.2编译器和pycharm集成软件。

pycharm.pngpython 3.9.2.png

学习流程

我们主要分为了五个部分进行学习爬虫底层架构的过程,分别是:

(一)页面分析:通过开发者工具分析目标页面,并确定好如何写爬虫程序
(二)发送请求:利用urllib库或者requests库对目标页面进行发起请求,获取响应数据
(三)分析响应数据并获取内容:利用re库、xpath库或者BeautifulSoup库获取所需内容
(四)存储内容:利用sqlite3库、excel工作表、word文档或者Mysql库对内容进行永久性存储
(五)优化过程:1:库的选择;2:开启多线程;3:去重处理;

流程图

liucheng.png