-
Overridden settings(覆盖的设置) :
- Scrapy允许用户通过配置文件或代码来覆盖默认的设置。在日志中,"[scrapy.utils.log] INFO: Overridden settings:" 后面通常会列出用户自己设置的setting的信息,这些信息对于理解爬虫的行为至关重要。
-
Enabled extensions(启用的扩展) :
- Scrapy扩展是用于添加额外功能的插件,如日志记录、调试、统计信息收集等。在日志中,"[scrapy.middleware] INFO: Enabled extensions:" 后面列出了当前启用的扩展,默认情况下,Scrapy会启用一些内置的扩展。
-
Enabled downloader middlewares(启用的下载中间件) :
- 下载中间件是处理Scrapy下载器(Downloader)和响应(Response)之间的请求(Request)和响应(Response)的组件。在日志中,"[scrapy.middleware] INFO: Enabled downloader middlewares:" 后面列出了当前启用的下载中间件,这些中间件可以对请求进行预处理或对响应进行后处理。
-
Enabled spider middlewares(启用的爬虫中间件) :
- 爬虫中间件是处理Scrapy引擎(Engine)和爬虫(Spider)之间的输入和输出的组件。在日志中,"[scrapy.middleware] INFO: Enabled spider middlewares:" 后面列出了当前启用的爬虫中间件,这些中间件可以对爬虫输入(如请求)或输出(如item或请求)进行处理。
-
Enabled item pipelines(启用的管道) :
- 管道是负责处理通过爬虫解析并yield出来的item的组件,可以对item进行清洗、验证、持久化等操作。在日志中,"[scrapy.middleware] INFO: Enabled item pipelines:" 后面列出了当前启用的管道。
-
Debug信息:
- 除了上述的INFO级别的日志外,Scrapy还会输出一些DEBUG级别的日志,用于提供更详细的调试信息。例如,"[scrapy.extensions.telnet] DEBUG: 爬虫运行的时候能够使用telnet命令对爬虫做一些控制,比如暂停等" 这条日志说明了在爬虫运行时可以通过telnet命令进行控制;"[scrapy.core.scraper] DEBUG: Scraped from <200 wz.sun0769.com/html/questi… {content:......}" 这条日志则显示了从某个URL抓取到的item的内容。
-
统计信息:
- 在爬虫结束时,Scrapy会输出一些统计信息,如请求响应数量等。这些信息对于评估爬虫的性能和效率非常有用。在日志中,"[scrapy.statscollectors] INFO: Dumping Scrapy stats:" 后面通常会列出这些统计信息。