【爬虫开发】爬虫开发从0到1全知识教程第3篇：requests模块,数据提取概述【附代码文档】爬虫概述 1. 爬虫的概念

教程总体简介：爬虫概述 1. 爬虫的概念爬虫基础 http协议复习 1. http以及https的概念和区别 2. 爬虫特别关注的请求头和响应头 3. 常见的响应状态码 4. 浏览器的运行过程 5. 关于http协议的其它参考阅读 Mongodb数据库介绍内容 mongodb的聚合操作 2 mongodb的常用管道和表达式 3 管道命令之`$group` 7 管道命令之`$skip` 和 `$limit` 8 小结小结 scrapy爬虫框架利用appium抓取app中的信息利用appium自动控制移动设备并提取数据 2.1 安装appium-python-client模块并启动已安装好的环境 2.2 初始化以及获取移动设备分辨率 2.3 定位元素以及提取文本的方法 2.4 控制抖音app滑动 2.5 整理并完成自动滑动的代码 2.6 关于模拟式移动端爬虫的参考阅读 requests模块数据提取概述 1. 响应内容的分类 2. 认识xml以及和html的区别 2.1 认识xml 2.3 常用数据解析方法数据提取-jsonpath模块 1. jsonpath模块的使用场景数据提取-lxml模块 1. 了解 lxml模块和xpath语法 2. 谷歌浏览器xpath helper插件的安装和使用 3. xpath的节点关系 4. xpath语法-基础节点选择语法 4.1 xpath定位节点以及提取属性或文本内容的语法 4.2 语法练习 7. lxml模块的安装与使用示例 7.2 爬虫对html提取的内容 8 练习 10. lxml模块中etree.tostring函数的使用 10.1 现象和结论 selenium的介绍 1. selenium运行效果展示 3. selenium的安装以及简单使用获取当前标签页的全部cookie信息把cookie转化为字典删除所有的cookie 显式等待参数20表示最长等待20秒参数0.5表示0.5秒检查一次规定的标签是否存在 EC.presence_of_element_located((By.LINK_TEXT, '好123')) 表示通过链接文本内容定位标签每0.5秒一次检查，通过链接文本内容定位标签是否存在，如果存在就向下继续执行；如果不存在，直到20秒上限就抛出异常 i = 0 while True: options.set_headles() # 无界面模式的另外一种开启方式反爬与反反爬常见的反爬手段和解决思路 1 服务器反爬的原因 2 服务器常反什么样的爬虫 3 反爬虫领域常见的一些概念 4 反爬的三个方向 5 常见基于身份识别进行反爬

完整笔记资料代码：gitee.com/yinuo112/Ba…

感兴趣的小伙伴可以自取哦~

全套教程部分目录：

部分文件图片：

requests模块

本阶段主要学习requests这个http模块，该模块主要用于发送请求获取响应，该模块有很多的替代模块，比如说urllib模块，但是在工作中用的最多的还是requests模块，requests的代码简洁易懂，相对于臃肿的urllib模块，使用requests编写的爬虫代码将会更少，而且实现某一功能将会简单。因此建议大家掌握该模块的使用

数据提取概述

知识点

了解响应内容的分类
了解 xml和html的区别

1. 响应内容的分类

在发送请求获取响应之后，可能存在多种不同类型的响应内容；而且很多时候，我们只需要响应内容中的一部分数据

结构化的响应内容
- json字符串
  - 可以使用re、json等模块来提取特定数据
  - json字符串的例子如下图
- xml字符串
  - 可以使用re、lxml等模块来提取特定数据
  - xml字符串的例子如下

Everyday Italian Giada De Laurentiis 2005 30.00 Harry Potter J K. Rowling 2005 29.99 Learning XML Erik T. Ray 2003 39.95 ```

非结构化的响应内容
- html字符串
  - 可以使用re、lxml等模块来提取特定数据
  - html字符串的例子如下图

知识点：了解响应内容的分类

2. 认识xml以及和html的区别

要搞清楚html和xml的区别，首先需要我们来认识xml

2.1 认识xml

xml是一种可扩展标记语言，样子和html很像，功能更专注于对传输和存储数据

<bookstore>
<book category="COOKING">
  <title lang="en">Everyday Italian</title> 
  <author>Giada De Laurentiis</author> 
  <year>2005</year> 
  <price>30.00</price> 
</book>
<book category="CHILDREN">
  <title lang="en">Harry Potter</title> 
  <author>J K. Rowling</author> 
  <year>2005</year> 
  <price>29.99</price> 
</book>
<book category="WEB">
  <title lang="en">Learning XML</title> 
  <author>Erik T. Ray</author> 
  <year>2003</year> 
  <price>39.95</price> 
</book>
</bookstore>

上面的xml内容可以表示为下面的树结构:

2.2 xml和html的区别

二者区别如下图

html：
- 超文本标记语言
- 为了更好的显示数据，侧重点是为了显示
xml：
- 可扩展标记语言
- 为了传输和存储数据，侧重点是在于数据内容本身

知识点：了解 xml和html的区别

2.3 常用数据解析方法

数据提取-jsonpath模块

知识点

了解 jsonpath模块的使用场景
掌握 jsonpath模块的使用

1. jsonpath模块的使用场景

如果有一个多层嵌套的复杂字典，想要根据key和下标来批量提取value，这是比较困难的。jsonpath模块就能解决这个痛点，接下来我们就来学习jsonpath模块

jsonpath可以按照key对python字典进行批量数据提取

知识点：了解 jsonpath模块的使用场景

2. jsonpath模块的使用方法

2.1 jsonpath模块的安装

jsonpath是第三方模块，需要额外安装

pip install jsonpath

2.2 jsonpath模块提取数据的方法

from jsonpath import jsonpath
ret = jsonpath(a, 'jsonpath语法规则字符串')

2.3 jsonpath语法规则

2.4 jsonpath使用示例

book_dict = { 
  "store": {
    "book": [ 
      { "category": "reference",
        "author": "Nigel Rees",
        "title": "Sayings of the Century",
        "price": 8.95
      },
      { "category": "fiction",
        "author": "Evelyn Waugh",
        "title": "Sword of Honour",
        "price": 12.99
      },
      { "category": "fiction",
        "author": "Herman Melville",
        "title": "Moby Dick",
        "isbn": "0-553-21311-3",
        "price": 8.99
      },
      { "category": "fiction",
        "author": "J. R. R. Tolkien",
        "title": "The Lord of the Rings",
        "isbn": "0-395-19395-8",
        "price": 22.99
      }
    ],
    "bicycle": {
      "color": "red",
      "price": 19.95
    }
  }
}

from jsonpath import jsonpath

print(jsonpath(book_dict, '$..author')) # 如果取不到将返回False # 返回列表，如果取不到将返回False

【爬虫开发】爬虫开发从0到1全知识教程第3篇：requests模块,数据提取概述【附代码文档】