我正在使用Scrapy从不同的网站抓取一些域,我想知道如何将我的数据保存在一个本地json文件中,格式可以是一个列表或一个字典,关键字为'domain',域列表作为值。在
在爬网程序文件中,项目如下所示: Pipeline:
import json
import codecs
class ChinazPipeline(object):
def __init__(self):
self.file = codecs.open('save.json', 'w', encoding='utf-8')
def process_item(self, item, spider):
line = json.dumps(dict(item), ensure_ascii=False) + "\n"
self.file.write(line)
return item
爬虫文件:
item['domain'] = 'xxx'.extract()
yield item