这是我参与[第四届青训营]笔记创作活动的第4天
因为我们训练营五个项目中包含爬虫的项目，这个项目是我之前没有接触过的，也是相对于其他项目容易上手的项目，所以进行了相关的学习，以及实践。主要是运用了scrapy框架。

爬虫框架——scrapy框架

介绍

Scrapy是一个应用程序框架，用于对网站进行爬行和提取结构化数据，这些结构化数据可用于各种有用的应用程序，如数据挖掘、信息处理或历史存档。

Scrapy框架的主要功能：

调度器(Scheduler)：调度器，一个URL的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重复的网址。
下载器(Downloader)：用于高速地下载网络上的资源，是基于twisted 这个高效的异步模型上的建立的。
爬虫（Spider）：spider使用Xpath 用于从特定的网页中提取自己需要的信息，可以根据自己的需求使用正则表达替换Xpath。
实体管道(Item Pipeline)：实体管道，用于接收网络爬虫传过来的数据，以便做进一步处理。
Scrapy引擎(Scrapy Engine)：Scrapy 引擎是整个框架的核心，用来处理整个系统的数据流，触发各种事件。它用来控制调试器、下载器、爬虫。实际上，引擎相当于计算机的CPU，它控制着整个流程。
中间件：整个 Scrapy 框架有很多中间件，如下载器中间件、网络爬虫中间件等，这些中间件相当于过滤器，夹在不同部分之间截获数据流，并进行特殊的加工处理。