数据分类
-
非结构化的数据:html等
- 处理方法:正则表达式、xpath
-
结构化数据:json,xml等
- 处理方法:转化为python数据类型
json.loads把json字符串转化为python类型,常用于查看爬取的数据json.dumps把python类型转化为json字符串,常用于将爬取数据保存到文件中json.dumps(content, ensure_ascii=False, indent=4)->防止保存的数据使用Ascii编码
JSON 使用注意点
-
JSON 在数据交换中起到了一个载体的作用,承载着相互传递的数据
-
json中的字符串都是双引号引起来的
- 如果不是双引号
- eval:能实现简单的字符串和python类型的转换
- replace:把单引号替换为双引号
-
往一个文件中写入多个json串,不再是一个json串,不能直接读取
- 一行写一个json,按照行来读取