python爬虫原生代码学习（一）

2021-11-02 396 阅读2分钟

<申明>：文章为本人原创，引用或者商用请联系本人，否则将追究责任

引言

目前爬虫技术已经发展的越来越成熟了，为了加快爬取效率和缩短时间，出现了一些如“scrapy”、“PySpider”等众多优秀的框架，甚至还出现了优秀的“八爪鱼”等集成性软件。

这些优秀的框架对学习者来说存在者一定的弊端，他们并不知道底层架构是什么样子的，具体的内容也不清楚，只会使用，出现错误却又不知道问题出在哪里，然后在那里懊恼很久，这对学习者来说是相当难受的。

那么，原生代码究竟是什么样子的呢？

带着这个问题，我自己做了一系列各种操作，找到了一条多线程通往全站爬取的道路。在这里欢迎各位大神评论及指点。

软件配置环境

好的猎人手里往往有一把好枪，程序员也是如此。这里我们使用到python3.9.2编译器和pycharm集成软件。

python 3.9.2.png

学习流程

我们主要分为了五个部分进行学习爬虫底层架构的过程，分别是：

（一）页面分析：通过开发者工具分析目标页面，并确定好如何写爬虫程序

（二）发送请求：利用urllib库或者requests库对目标页面进行发起请求，获取响应数据

（三）分析响应数据并获取内容：利用re库、xpath库或者BeautifulSoup库获取所需内容

（四）存储内容：利用sqlite3库、excel工作表、word文档或者Mysql库对内容进行永久性存储

（五）优化过程：1：库的选择；2：开启多线程；3：去重处理；

流程图