【修订中】scrapy的技巧

228 阅读1分钟

一、scrapy初始url的写法
一种好是常量start_urls,并且需要定义一个方法parse()
另外一种是直接定义一个start_requests
二、python中运营scrapy中cmdline
三、函数中收集参数关键字收集和非关键字收集的区别
image.png 四、python中super用法
这个方法是有用来解决子类中调用父类同名构造方法
image.png Spider CrawlSpider完成数据深度爬取 scrapy框架对于深度爬虫,提供了一种封装类scrapy.CrawlSpider,当我们开发时继承这个类,就能使用scrapy框架封装好的各种深度爬虫功能 scrapy.CrawlSpider是从scrapy.Spider继承并进行功能扩展的类,主要通过定义url地址提取规则,跟踪链接地址,从而进行深度的数据采集 (1).查看CrawlSpider的部分源码,可以帮助你理解 www.jianshu.com/p/09e29b0a4…

class CrawlSpider(Spider): rules = () def init(self, *a, **kw): super(CrawlSpider, self).init(*a, **kw) self._compile_rules()

# 1. 调用重写父类的parse()函数来处理start_urls中返回的response对象
# 2. parse()则将这些response对象再次传递给了_parse_response()函数处理
# 2.1. _parse_response()函数中设置follow为True,该参数用于打开是否跟进链接提取
# 3. parse将返回item和跟进了的Request对象