Day4--Scrapy基本使用

2019-03-24 261 阅读1分钟

Scrapy的基本使用

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

他的基本项目流程为：

创建一个Scrapy项目
定义提取的Item
编写爬取网站的spider并提取Item
编写Item Pipeline来存储提取到的Item(即数据)

而一般的爬虫流程为：

抓取索引页：请求索引页的URL并得到源代码，进行下一步分析；
获取内容和下一页链接：分析源代码，提取索引页数据，并且获取下一页链接，进行下一步抓取；
翻页爬取：请求下一页信息，分析内容并请求在下一页链接；
保存爬取结果：将爬取结果保存为特定格式和文本，或者保存数据库。