Scrapy的基本使用
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
- 他的基本项目流程为:
- 创建一个Scrapy项目
- 定义提取的Item
- 编写爬取网站的spider并提取Item
- 编写Item Pipeline来存储提取到的Item(即数据)
而一般的爬虫流程为:
- 抓取索引页:请求索引页的URL并得到源代码,进行下一步分析;
- 获取内容和下一页链接:分析源代码,提取索引页数据,并且获取下一页链接,进行下一步抓取;
- 翻页爬取:请求下一页信息,分析内容并请求在下一页链接;
- 保存爬取结果:将爬取结果保存为特定格式和文本,或者保存数据库。