Day4--Scrapy基本使用

261 阅读1分钟

Scrapy的基本使用

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

  • 他的基本项目流程为:
  1. 创建一个Scrapy项目
  2. 定义提取的Item
  3. 编写爬取网站的spider并提取Item
  4. 编写Item Pipeline来存储提取到的Item(即数据)

而一般的爬虫流程为:

  1. 抓取索引页:请求索引页的URL并得到源代码,进行下一步分析;
  2. 获取内容和下一页链接:分析源代码,提取索引页数据,并且获取下一页链接,进行下一步抓取;
  3. 翻页爬取:请求下一页信息,分析内容并请求在下一页链接;
  4. 保存爬取结果:将爬取结果保存为特定格式和文本,或者保存数据库。