scrapy框架scrapy genspider s_web web.s_web为文件名 web. __init__

scrapy介绍

Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据

Scrapy 使用了 Twisted(其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求

特点：数据结构化、分布式

pip install scrapy

scrapy stratproject myproject

scrapy genspider s_web web.com

s_web为文件名 web.com爬取网站的域名

scrapy crawl s_web

s_web为spider文件名

__init__.py：爬虫项目的初始化文件，用来对项目做初始化工作。

items.py：爬虫项目的数据容器文件，用来定义要获取的数据。

pipelines.py：爬虫项目的管道文件，用来对items中的数据进行进一步的加工处理。

settings.py：爬虫项目的设置文件，包含了爬虫项目的设置信息。

middlewares.py：爬虫项目的中间件文件，

scrapy.cfg：爬虫项目的配置文件。