安装
首先需要安装python,在系统中已经有python的情况下,运行 pip install scrapy 进行安装
安装指定版本(非必要)
pip install scrapy==2.5.1 即在 ==后面加版本号即可
指定openssl的版本(非必要)
通过pip uninstall cryptograbhy和pip install cryptograbhy==36.0.2这个版本对应的openssl为1.1.1n
验证
安装完成之后运行 python -m scrapy version --verbose 进行验证,如果已经正常安装,会显示版本号,例如:
C:\Users\user01>python -m scrapy version --verbose
Scrapy : 2.13.3
lxml : 6.0.0
libxml2 : 2.11.9
cssselect : 1.3.0
parsel : 1.10.0
w3lib : 2.3.1
Twisted : 25.5.0
Python : 3.13.5 (tags/v3.13.5:6cb20a2, Jun 11 2025, 16:15:46) [MSC v.1943 64 bit (AMD64)]
pyOpenSSL : 25.1.0 (OpenSSL 3.5.1 1 Jul 2025)
cryptography : 45.0.5
Platform : Windows-11-10.0.26100-SP0
如果输出没问题,那就已经安装完毕了
scrapy的组件介绍
- 引擎(engine)
scrapy的核心,所有模块的衔接,数据流程梳理 - 调度器(scheduler)
可以看成是一个集合和队列,里面存放着即将要发送的请求,决定了下一步要去爬取哪一个url.通常在这里可以对url进行去重操作 - 下载器(downloader)
本质就是用来发送请求的一个模块,返回一个response对象 - 爬虫(spider)
这是要写的第一个部分的内容,负责解析下载器返回的response对象.从中提取需要的数据 - 管道(pipeline)
这是要写的第二个部分的内容,负责数据的存储和各种持久化操作,
scrapy的工作流程
流程图中编号的含义
- 引擎调用spider
- spider中对urls进行处理,返回request请求对象
- 引擎调用调度器
- 调度器中的过滤器与请求队列进行处理,然后返回结果
- 引擎调用下载器
- 下载器对request请求对象进行解析,并进行请求,返回请求结果response对象
- 引擎调用spider中的parse方法
- parse方法对请求结果进行处理,提取数据
- 引擎将数据发送给管道,由管道进行进一步的处理