什么是数据提取
简单来说,数据提取就是从响应中获取我们想要的数据的过程
数据分类
-
非结构化的数据:html等
- 处理方法:正则表达式、xpath
-
结构化数据:json,xml等
-
处理方法:转化为python数据类型
-
json.loads把json字符串转化为python类型,常用于查看爬取的数据 -
json.dumps把python类型转化为json字符串,常用于将爬取数据保存到文件中json.dumps(content, ensure_ascii=False, indent=4)->防止保存的数据使用Ascii编码
-
JSON 使用注意点
-
JSON 在数据交换中起到了一个载体的作用,承载着相互传递的数据
-
json中的字符串都是双引号引起来的
- 如果不是双引号
- eval:能实现简单的字符串和python类型的转换
- replace:把单引号替换为双引号
-
往一个文件中写入多个json串,不再是一个json串,不能直接读取
- 一行写一个json,按照行来读取