解析一下setting.py的常用配置项
1. 是否遵守爬虫约定
ROBOTSTXT_OBEY = False
2. 最大同时请求数量
CONCURRENT_REQUESTS = 16
3. 请求间隔时间(单位秒)
DOWNLOAD_DELAY = 1
此配置与2. 最大同时请求数量配置冲突,当配置了此配置后,2将失效
4. 请求头
DEFAULT_REQUEST_HEADERS = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Language": "en",
}
5. 日志级别
LOG_LEVEL = "INFO"
可选的值 DEBUG, INFO, WARNING, ERROR
6. 管道
ITEM_PIPELINES = {
"tutorial.pipelines.json_writer_pipeline.JsonWriterPipeline": 300
}
前面的key是class在项目中的路径,后面的数字是优先级,数字越小,优先级越高,管道越先执行
7. 下载图片时的目录
IMAGES_STORE = "./images"
8. 下载时出现重定向的解决
# 如果下载图片时出现302重定向, 需要添加这个配置
MEDIA_ALLOW_REDIRECTS = True