scrapy框架

127 阅读1分钟

scrapy介绍

Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据

Scrapy 使用了 Twisted(其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求

特点:数据结构化、分布式

scrapy安装

pip install scrapy

创建项目

scrapy stratproject myproject

新建spider文件

scrapy genspider s_web web.com

s_web为文件名  web.com爬取网站的域名

运行spider文件

scrapy crawl s_web

s_web为spider文件名

项目目录结构

  __init__.py:爬虫项目的初始化文件,用来对项目做初始化工作。

  items.py:爬虫项目的数据容器文件,用来定义要获取的数据。

  pipelines.py:爬虫项目的管道文件,用来对items中的数据进行进一步的加工处理。

  settings.py:爬虫项目的设置文件,包含了爬虫项目的设置信息。

  middlewares.py:爬虫项目的中间件文件,

  scrapy.cfg:爬虫项目的配置文件。