2. settings.py解析

38 阅读1分钟

解析一下setting.py的常用配置项

1. 是否遵守爬虫约定

ROBOTSTXT_OBEY = False

2. 最大同时请求数量

CONCURRENT_REQUESTS = 16

3. 请求间隔时间(单位秒)

DOWNLOAD_DELAY = 1

此配置与2. 最大同时请求数量配置冲突,当配置了此配置后,2将失效

4. 请求头

DEFAULT_REQUEST_HEADERS = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    "Accept-Language": "en",
}

5. 日志级别

LOG_LEVEL = "INFO"

可选的值 DEBUG, INFO, WARNING, ERROR

6. 管道

 ITEM_PIPELINES = {
     "tutorial.pipelines.json_writer_pipeline.JsonWriterPipeline": 300
 }

前面的key是class在项目中的路径,后面的数字是优先级,数字越小,优先级越高,管道越先执行

7. 下载图片时的目录


IMAGES_STORE = "./images"

8. 下载时出现重定向的解决


# 如果下载图片时出现302重定向, 需要添加这个配置
MEDIA_ALLOW_REDIRECTS = True