每天一道面试题:day12

211 阅读1分钟

question:scrapy爬虫框架的基本抓取流程
answer:
scrapy框架有五大组成部分,分别是引擎,爬虫文件,调度器,下载器和管道文件。引擎是scrapy的核心,串联起了其他四个部分,像一个大管家一样。首先爬虫文件给引擎第一个url地址,引擎传给调度器,调度器入队列后按顺序再通过引擎传给下载器,下载器获得响应结果后通过引擎传给爬虫文件解析,爬虫文件解析完响应结果后分两种情况,第一种是直接通过引擎传给管道文件做持久化保存,第二种是解析出二级url再给引擎继续循环。若要构建分布式爬虫可利用redis_scrapy库重写管道文件,实现多台主机共享一个爬虫队列。