scrapy介绍
Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据
Scrapy 使用了 Twisted(其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求
特点:数据结构化、分布式
scrapy安装
pip install scrapy
创建项目
scrapy stratproject myproject
新建spider文件
scrapy genspider s_web web.com
s_web为文件名 web.com爬取网站的域名
运行spider文件
scrapy crawl s_web
s_web为spider文件名
项目目录结构
__init__.py:爬虫项目的初始化文件,用来对项目做初始化工作。
items.py:爬虫项目的数据容器文件,用来定义要获取的数据。
pipelines.py:爬虫项目的管道文件,用来对items中的数据进行进一步的加工处理。
settings.py:爬虫项目的设置文件,包含了爬虫项目的设置信息。
middlewares.py:爬虫项目的中间件文件,
scrapy.cfg:爬虫项目的配置文件。