什么是数据提取

111 阅读1分钟

数据分类

  • 非结构化的数据:html等

    • 处理方法:正则表达式、xpath
  • 结构化数据:json,xml等

    • 处理方法:转化为python数据类型
    • json.loads 把json字符串转化为python类型,常用于查看爬取的数据
    • json.dumps 把python类型转化为json字符串,常用于将爬取数据保存到文件中json.dumps(content, ensure_ascii=False, indent=4)->防止保存的数据使用Ascii编码

JSON 使用注意点

  • JSON 在数据交换中起到了一个载体的作用,承载着相互传递的数据

  • json中的字符串都是双引号引起来的

    • 如果不是双引号
    • eval:能实现简单的字符串和python类型的转换
    • replace:把单引号替换为双引号
  • 往一个文件中写入多个json串,不再是一个json串,不能直接读取

    • 一行写一个json,按照行来读取