携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第23天,点击查看活动详情 大家好,我是辣条。
上次整理的爬虫教程反响不错,但是还是有小伙伴表示不够细致,今天带来了升级版,全文很长,建议先收藏下来。
目录
一、爬虫基础
爬虫概述
http协议复习
二、requests模块
-
requests模块介绍
-
response响应对象
-
requests模块发送请求
-
requests模块发送post请求
-
利用requests.session进行状态保持
三、数据提取
数据提取概述
数据提取-jsonpath模块
数据提取-lxml模块
四、selenium的使用
selenium的介绍
selenium提取数据
selenium的其它使用方法
五、抓包与反爬与反爬解决方案
常见的反爬手段和解决思路
验证码处理
chrome浏览器使用方法介绍
JS的解析
六、mongodb数据库
Mongodb的介绍和安装
mongodb的简单使用
Mongodb的的增删改查
mongodb的聚合操作
Mongodb的权限管理
mongodb和python交互
七、scrapy爬虫框架
scrapy的概念和流程
scrapy的入门使用
scrapy数据建模与请求
scrapy模拟登陆
scrapy管道的使用
scrapy中间件的使用
scrapy_redis概念作用和流程
scrapy_redis原理分析并实现断点续爬以及分布式爬虫
scrapy_splash组件的使用
scrapy的日志信息与配置
scrapyd部署scrapy项目
Gerapy
八、appium的使用
利用appium自动控制移动设备并提取数据
一、爬虫基础 爬虫概述 知识点:
了解 爬虫的概念
了解 爬虫的作用
了解 爬虫的分类
掌握 爬虫的流程
- 爬虫的概念
模拟浏览器,发送请求,获取响应
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做
爬虫也只能获取客户端(浏览器)所展示出来的数据
知识点:了解爬虫的概念
- 爬虫的作用
爬虫在互联网世界中有很多的作用,一句话总结就是抓取网站上的信息。
知识点:了解 爬虫的作用
- 爬虫的分类
3.1 根据被爬取网站的数量不同,可以分为:
通用爬虫,如 搜索引擎
聚焦爬虫,如12306抢票,或专门抓取某一个(某一类)网站数据
3.2 根据是否以获取数据为目的,可以分为:
功能性爬虫,给你喜欢的明星投票、点赞
数据增量爬虫,比如招聘信息
3.3 根据url地址和对应的页面内容是否改变,数据增量爬虫可以分为:
基于url地址变化、内容也随之变化的数据增量爬虫
url地址不变、内容变化的数据增量爬虫
知识点:了解 爬虫的分类
- 爬虫的流程
爬虫的基本流程如下所示
获取一个url
向url发送请求,并获取响应(需要http协议)
如果从响应中提取url,则继续发送请求获取响应
如果从响应中提取数据,则将数据进行保存
知识点:掌握 爬虫的流程
http协议复习 知识点
掌握 http以及https的概念和默认端口
掌握 爬虫关注的请求头和响应头
了解 常见的响应状态码
理解 浏览器和爬虫爬取的区别
- http以及https的概念和区别
HTTPS比HTTP更安全,但是性能更低
HTTP:超文本传输协议,默认端口号是80
超文本:是指超过文本,不仅限于文本;还包括图片、音频、视频等文件
传输协议:是指使用共用约定的固定格式来传递转换成字符串的超文本内容
HTTPS:HTTP + SSL(安全套接字层),即带有安全套接字层的超本文传输协,默认端口号:443
SSL对传输的内容(超文本,也就是请求体或响应体)进行加密
可以打开浏览器访问一个url,右键检查,点击net work,点选一个url,查看http协议的形式
知识点:掌握 http以及https的概念和默认端口
- 爬虫特别关注的请求头和响应头
2.1 特别关注的请求头字段
爬虫特别关注以下几个请求头字段
Content-Type
Host (主机和端口号)
Connection (链接类型)
Upgrade-Insecure-Requests (升级为HTTPS请求)
User-Agent (浏览器名称)
Referer (页面跳转处)
Cookie (Cookie)
Authorization(用于表示HTTP协议中需要认证资源的认证信息,如前边web课程中用于jwt认证)
加粗的请求头为常用请求头,在服务器被用来进行爬虫识别的频率最高,相较于其余的请求头更为重要,但是这里需要注意的是并不意味这其余的不重要,因为有的网站的运维或者开发人员可能剑走偏锋,会使用一些比较不常见的请求头来进行爬虫的甄别
2.2 特别关注的响应头字段
爬虫只关注一个响应头字段
Set-Cookie (对方服务器设置cookie到用户浏览器的缓存)
知识点:掌握 爬虫关注的请求头和响应头
- 常见的响应状态码
200:成功
302:跳转,新的url在响应的Location头中给出
303:浏览器对于POST的响应进行重定向至新的url
307:浏览器对于GET的响应重定向至新的url
403:资源不可用;服务器理解客户的请求,但拒绝处理它(没有权限)
404:找不到该页面
500:服务器内部错误
503:服务器由于维护或者负载过重未能应答,在响应中可能可能会携带Retry-After响应头;有可能是因为爬虫频繁访问url,使服务器忽视爬虫的请求,最终返回503响应状态码
学习web知识的时候就已经学过了状态码的相关知识,我们知道这是服务器给我的相关反馈,我们在学习的时候就被教育说应该将真实情况反馈给客户端,但是在爬虫中,可能该站点的开发人员或者运维人员为了阻止数据被爬虫轻易获取,可能在状态码上做手脚,也就是说返回的状态码并不一定就是真实情况,比如:服务器已经识别出你是爬虫,但是为了让你疏忽大意,所以照样返回状态码200,但是响应体重并没有数据。
所有的状态码都不可信,一切以是否从抓包得到的响应中获取到数据为准
知识点:了解 常见的响应状态码
- 浏览器的运行过程
在回顾完http协议后,我们来了解以下浏览器发送http请求的过程
4.1 http请求的过程
浏览器在拿到域名对应的ip后,先向地址栏中的url发起请求,并获取响应
在返回的响应内容(html)中,会带有css、js、图片等url地址,以及ajax代码,浏览器按照响应内容中的顺序依次发送其他的请求,并获取相应的响应
浏览器每获取一个响应就对展示出的结果进行添加(加载),js,css等内容会修改页面的内容,js也可以重新发送请求,获取响应
从获取第一个响应并在浏览器中展示,直到最终获取全部响应,并在展示的结果中添加内容或修改————这个过程叫做浏览器的渲染
4.2 注意:
但是在爬虫中,爬虫只会请求url地址,对应的拿到url地址对应的响应(该响应的内容可以是html,css,js,图片等)
浏览器渲染出来的页面和爬虫请求的页面很多时候并不一样,是因为爬虫不具备渲染的能力(当然后续课程中我们会借助其它工具或包来帮助爬虫对响应内容进行渲染)
浏览器最终展示的结果是由多个url地址分别发送的多次请求对应的多次响应共同渲染的结果
所以在爬虫中,需要以发送请求的一个url地址对应的响应为准来进行数据的提取
知识点:理解 浏览器展示的结果可以由多次请求对应的多次响应共同渲染出来,而爬虫是一次请求对应一个响应
二、requests模块 requests模块 知识点:
掌握 headers参数的使用
掌握 发送带参数的请求
掌握 headers中携带cookie
掌握 cookies参数的使用
掌握 cookieJar的转换方法
掌握 超时参数timeout的使用
掌握 代理ip参数proxies的使用
掌握 使用verify参数忽略CA证书
掌握 requests模块发送post请求
掌握 利用requests.session进行状态保持
前面我们了解了爬虫的基础知识,接下来我们来学习如何在代码中实现我们的爬虫
- requests模块介绍 1.1 requests模块的作用:
发送http请求,获取响应数据
1.2 requests模块是一个第三方模块,需要在你的python(虚拟)环境中额外安装
pip/pip3 install requests
1.3 requests模块发送get请求
需求:通过requests向百度首页发送请求,获取该页面的源码
运行下面的代码,观察打印输出的结果
1.2.1-简单的代码实现
import requests
目标url
url = 'www.baidu.com'
向目标url发送get请求
response = requests.get(url)
打印响应内容
print(response.text) 知识点:掌握 requests模块发送get请求
- response响应对象 观察上边代码运行结果发现,有好多乱码;这是因为编解码使用的字符集不同早造成的;我们尝试使用下边的办法来解决中文乱码问题
1.2.2-response.content
import requests
目标url
url = 'www.baidu.com'
向目标url发送get请求
response = requests.get(url)
打印响应内容
print(response.text)
print(response.content.decode()) # 注意这里! response.text是requests模块按照chardet模块推测出的编码字符集进行解码的结果
网络传输的字符串都是bytes类型的,所以response.text = response.content.decode('推测出的编码字符集')
我们可以在网页源码中搜索charset,尝试参考该编码字符集,注意存在不准确的情况
2.1 response.text 和response.content的区别: response.text
类型:str
解码类型: requests模块自动根据HTTP 头部对响应的编码作出有根据的推测,推测的文本编码
response.content
类型:bytes
解码类型: 没有指定
知识点:掌握 response.text和response.content的区别
2.2 通过对response.content进行decode,来解决中文乱码
response.content.decode() 默认utf-8
response.content.decode("GBK")
常见的编码字符集
utf-8
gbk
gb2312
ascii (读音:阿斯克码)
iso-8859-1
知识点:掌握 利用decode函数对requests.content解决中文乱码
2.3 response响应对象的其它常用属性或方法
response = requests.get(url)中response是发送请求获取的响应对象;response响应对象中除了text、content获取响应内容以外还有其它常用的属性或方法:
response.url响应的url;有时候响应的url和请求的url并不一致
response.status_code 响应状态码
response.request.headers 响应对应的请求头
response.headers 响应头
response.request._cookies 响应对应请求的cookie;返回cookieJar类型
response.cookies 响应的cookie(经过了set-cookie动作;返回cookieJar类型
response.json()自动将json字符串类型的响应内容转换为python对象(dict or list)
1.2.3-response其它常用属性
import requests
目标url
url = 'www.baidu.com'
向目标url发送get请求
response = requests.get(url)
打印响应内容
print(response.text)
print(response.content.decode()) # 注意这里!
print(response.url) # 打印响应的url print(response.status_code) # 打印响应的状态码 print(response.request.headers) # 打印响应对象的请求头 print(response.headers) # 打印响应头 print(response.request._cookies) # 打印请求携带的cookies print(response.cookies) # 打印响应中携带的cookies
知识点:掌握 response响应对象的其它常用属性
- requests模块发送请求 3.1 发送带header的请求
我们先写一个获取百度首页的代码
import requests url = 'www.baidu.com' response = requests.get(url) print(response.content.decode())
打印响应对应请求的请求头信息
print(response.request.headers) 3.1.1 思考
对比浏览器上百度首页的网页源码和代码中的百度首页的源码,有什么不同?
查看网页源码的方法:
右键-查看网页源代码 或
右键-检查
对比对应url的响应内容和代码中的百度首页的源码,有什么不同?
查看对应url的响应内容的方法:
右键-检查
点击 Net work
勾选 Preserve log
刷新页面
查看Name一栏下和浏览器地址栏相同的url的Response
代码中的百度首页的源码非常少,为什么?
需要我们带上请求头信息
回顾爬虫的概念,模拟浏览器,欺骗服务器,获取和浏览器一致的内容
请求头中有很多字段,其中User-Agent字段必不可少,表示客户端的操作系统以及浏览器的信息
3.1.2 携带请求头发送请求的方法
requests.get(url, headers=headers)
headers参数接收字典形式的请求头
请求头字段名作为key,字段对应的值作为value
3.1.3 完成代码实现
从浏览器中复制User-Agent,构造headers字典;完成下面的代码后,运行代码查看结果
import requests url = 'www.baidu.com' headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
在请求头中带上User-Agent,模拟浏览器发送请求
response = requests.get(url, headers=headers) print(response.content)
打印请求头信息
print(response.request.headers) 知识点:掌握 headers参数的使用
3.2 发送带参数的请求
我们在使用百度搜索的时候经常发现url地址中会有一个 ?,那么该问号后边的就是请求参数,又叫做查询字符串
3.2.1 在url携带参数
直接对含有参数的url发起请求
import requests headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"} url = 'www.baidu.com/s?wd=python' response = requests.get(url, headers=headers) 3.2.2 通过params携带参数字典
1.构建请求参数字典
2.向接口发送请求的时候带上参数字典,参数字典设置给params
import requests headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
这是目标url
url = 'www.baidu.com/s?wd=python'
最后有没有问号结果都一样
url = 'www.baidu.com/s?'
请求参数是一个字典 即wd=python
kw = {'wd': 'python'}
带上请求参数发起请求,获取响应
response = requests.get(url, headers=headers, params=kw) print(response.content)
知识点:掌握发送带参数的请求的方法
3.3 在headers参数中携带cookie
网站经常利用请求头中的Cookie字段来做用户访问状态的保持,那么我们可以在headers参数中添加Cookie,模拟普通用户的请求。我们以github登陆为例:
3.3.1 github登陆抓包分析
打开浏览器,右键-检查,点击Net work,勾选Preserve log
访问github登陆的url地址 github.com/login
输入账号密码点击登陆后,访问一个需要登陆后才能获取正确内容的url,比如点击右上角的Your profile访问github.com/USER_NAME
确定url之后,再确定发送该请求所需要的请求头信息中的User-Agent和Cookie
3.3.2 完成代码
从浏览器中复制User-Agent和Cookie
浏览器中的请求头字段和值与headers参数中必须一致
headers请求参数字典中的Cookie键对应的值是字符串
import requests url = 'github.com/USER_NAME'
构造请求头字典
headers = { # 从浏览器中复制过来的User-Agent 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36', # 从浏览器中复制过来的Cookie 'Cookie': 'xxx这里是复制过来的cookie字符串' }
请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers) print(resp.text)
3.3.3 运行代码验证结果
在打印的输出结果中搜索title,html中的标题文本内容如果是你的github账号,则成功利用headers参数携带cookie,获取登陆后才能访问的页面
知识点:掌握 headers中携带cookie
3.4 cookies参数的使用
上一小节我们在headers参数中携带cookie,也可以使用专门的cookies参数
cookies参数的形式:字典
cookies = {"cookie的name":"cookie的value"}
该字典对应请求头中Cookie字符串,以分号、空格分割每一对字典键值对
等号左边的是一个cookie的name,对应cookies字典的key
等号右边对应cookies字典的value
cookies参数的使用方法
response = requests.get(url, cookies)
将cookie字符串转换为cookies参数所需的字典:
cookies_dict = {cookie.split('=')[0]:cookie.split('=')[-1] for cookie in cookies_str.split('; ')}
注意:cookie一般是有过期时间的,一旦过期需要重新获取
import requests url = 'github.com/USER_NAME'
构造请求头字典
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36' }
构造cookies字典
cookies_str = '从浏览器中copy过来的cookies字符串' cookies_dict = {cookie.split('=')[0]:cookie.split('=')[-1] for cookie in cookies_str.split('; ')}
请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers, cookies=cookies_dict) print(resp.text)
知识点:掌握 cookies参数的使用
3.5 cookieJar对象转换为cookies字典的方法
使用requests获取的resposne对象,具有cookies属性。该属性值是一个cookieJar类型,包含了对方服务器设置在本地的cookie。我们如何将其转换为cookies字典呢?
转换方法
cookies_dict = requests.utils.dict_from_cookiejar(response.cookies)
其中response.cookies返回的就是cookieJar类型的对象
requests.utils.dict_from_cookiejar函数返回cookies字典
知识点:掌握 cookieJar的转换方法
3.6 超时参数timeout的使用
在平时网上冲浪的过程中,我们经常会遇到网络波动,这个时候,一个请求等了很久可能任然没有结果。
在爬虫中,一个请求很久没有结果,就会让整个项目的效率变得非常低,这个时候我们就需要对请求进行强制要求,让他必须在特定的时间内返回结果,否则就报错。
超时参数timeout的使用方法
response = requests.get(url, timeout=3)
timeout=3表示:发送请求后,3秒钟内返回响应,否则就抛出异常
import requests url = 'twitter.com' response = requests.get(url, timeout=3) # 设置超时时间 知识点:掌握 超时参数timeout的使用
3.7 了解代理以及proxy代理参数的使用
proxy代理参数通过指定代理ip,让代理ip对应的正向代理服务器转发我们发送的请求,那么我们首先来了解一下代理ip以及代理服务器
3.7.1 理解使用代理的过程
代理ip是一个ip,指向的是一个代理服务器
代理服务器能够帮我们向目标服务器转发请求
3.7.2 正向代理和反向代理的区别
前边提到proxy参数指定的代理ip指向的是正向的代理服务器,那么相应的就有反向服务器;现在来了解一下正向代理服务器和反向代理服务器的区别
从发送请求的一方的角度,来区分正向或反向代理
为浏览器或客户端(发送请求的一方)转发请求的,叫做正向代理
浏览器知道最终处理请求的服务器的真实ip地址,例如VPN
不为浏览器或客户端(发送请求的一方)转发请求、而是为最终处理请求的服务器转发请求的,叫做反向代理
浏览器不知道服务器的真实地址,例如nginx
3.7.3 代理ip(代理服务器)的分类
根据代理ip的匿名程度,代理IP可以分为下面三类:
透明代理(Transparent Proxy):透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以查到你是谁。目标服务器接收到的请求头如下:
REMOTE_ADDR = Proxy IP HTTP_VIA = Proxy IP HTTP_X_FORWARDED_FOR = Your IP 匿名代理(Anonymous Proxy):使用匿名代理,别人只能知道你用了代理,无法知道你是谁。目标服务器接收到的请求头如下:
REMOTE_ADDR = proxy IP HTTP_VIA = proxy IP HTTP_X_FORWARDED_FOR = proxy IP 高匿代理(Elite proxy或High Anonymity Proxy):高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。毫无疑问使用高匿代理效果最好。目标服务器接收到的请求头如下:
REMOTE_ADDR = Proxy IP HTTP_VIA = not determined HTTP_X_FORWARDED_FOR = not determined 根据网站所使用的协议不同,需要使用相应协议的代理服务。从代理服务请求使用的协议可以分为:
http代理:目标url为http协议
https代理:目标url为https协议
socks隧道代理(例如socks5代理)等:
socks 代理只是简单地传递数据包,不关心是何种应用协议(FTP、HTTP和HTTPS等)。
socks 代理比http、https代理耗时少。
socks 代理可以转发http和https的请求
3.7.4 proxies代理参数的使用
为了让服务器以为不是同一个客户端在请求;为了防止频繁向一个域名发送请求被封ip,所以我们需要使用代理ip;那么我们接下来要学习requests模块是如何使用代理ip的
用法:
response = requests.get(url, proxies=proxies) proxies的形式:字典
例如:
proxies = { "http": "http://12.34.56.79:9527", "https": "https://12.34.56.79:9527", } 注意:如果proxies字典中包含有多个键值对,发送请求时将按照url地址的协议来选择使用相应的代理ip
知识点:掌握 代理ip参数proxies的使用
- requests模块发送post请求 思考:哪些地方我们会用到POST请求?
登录注册( 在web工程师看来POST 比 GET 更安全,url地址中不会暴露用户的账号密码等信息)
需要传输大文本内容的时候( POST 请求对数据长度没有要求)
所以同样的,我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求
4.1 requests发送post请求的方法
response = requests.post(url, data)
data参数接收一个字典
requests模块发送post请求函数的其它参数和发送get请求的参数完全一致
4.2 POST请求练习
下面面我们通过金山翻译的例子看看post请求如何使用:
思路分析
抓包确定请求的url地址
确定请求的参数
确定返回数据的位置
模拟浏览器获取数据
4.2.3 抓包分析的结论
url地址:fy.iciba.com/
请求方法:POST
请求所需参数:
data = { 'f': 'auto', # 表示被翻译的语言是自动识别 't': 'auto', # 表示翻译后的语言是自动识别 'w': '人生苦短' # 要翻译的中文字符串 } pc端User-Agent:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36
4.2.4 代码实现
了解requests模块发送post请求的方法,以及分析过移动端的百度翻译之后,我们来完成代码
import requests import json
class King(object):
def __init__(self, word):
self.url = "http://fy.iciba.com/ajax.php?a=fy"
self.word = word
self.headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"
}
self.post_data = {
"f": "auto",
"t": "auto",
"w": self.word
}
def get_data(self):
response = requests.post(self.url, headers=self.headers, data=self.post_data)
# 默认返回bytes类型,除非确定外部调用使用str才进行解码操作
return response.content
def parse_data(self, data):
# 将json数据转换成python字典
dict_data = json.loads(data)
# 从字典中抽取翻译结果
try:
print(dict_data['content']['out'])
except:
print(dict_data['content']['word_mean'][0])
def run(self):
# url
# headers
# post——data
# 发送请求
data = self.get_data()
# 解析
self.parse_data(data)
if name == 'main': # king = King("人生苦短,及时行乐") king = King("China") king.run() # python标准库有很多有用的方法,每天看一个标准库的使用
知识点:掌握 requests模块发送post请求
- 利用requests.session进行状态保持 requests模块中的Session类能够自动处理发送请求获取响应过程中产生的cookie,进而达到状态保持的目的。接下来我们就来学习它
5.1 requests.session的作用以及应用场景
requests.session的作用
自动处理cookie,即 下一次请求会带上前一次的cookie
requests.session的应用场景
自动处理连续的多次请求过程中产生的cookie
5.2 requests.session使用方法
session实例在请求了一个网站后,对方服务器设置在本地的cookie会保存在session中,下一次再使用session请求对方服务器的时候,会带上前一次的cookie
session = requests.session() # 实例化session对象 response = session.get(url, headers, ...) response = session.post(url, data, ...) session对象发送get或post请求的参数,与requests模块发送请求的参数完全一致
5.3 测试
使用requests.session来完成github登陆,并获取需要登陆后才能访问的页面
5.3.1 提示
对github登陆以及访问登陆后才能访问的页面的整个完成过程进行抓包
确定登陆请求的url地址、请求方法和所需的请求参数
部分请求参数在别的url对应的响应内容中,可以使用re模块获取
确定登陆后才能访问的页面的的url地址和请求方法
利用requests.session完成代码
5.3.2 参考代码
import requests import re
构造请求头字典
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36', }
实例化session对象
session = requests.session()
访问登陆页获取登陆请求所需参数
response = session.get('github.com/login', headers=headers) authenticity_token = re.search('name="authenticity_token" value="(.*?)" />', response.text).group(1) # 使用正则获取登陆请求所需参数
构造登陆请求参数字典
data = { 'commit': 'Sign in', # 固定值 'utf8': '✓', # 固定值 'authenticity_token': authenticity_token, # 该参数在登陆页的响应内容中 'login': input('输入github账号:'), 'password': input('输入github账号:') }
发送登陆请求(无需关注本次请求的响应)
session.post('github.com/session', headers=headers, data=data)
打印需要登陆后才能访问的页面
response = session.get('github.com/1596930226', headers=headers) print(response.text)
知识点:掌握 利用requests.session进行状态保持
三、数据提取 数据提取概述 知识点
了解 响应内容的分类
了解 xml和html的区别
- 响应内容的分类
在发送请求获取响应之后,可能存在多种不同类型的响应内容;而且很多时候,我们只需要响应内容中的一部分数据
结构化的响应内容
json字符串
可以使用re、json等模块来提取特定数据
xml字符串
可以使用re、lxml等模块来提取特定数据
xml字符串的例子如下
Everyday Italian Giada De Laurentiis 2005 30.00 Harry Potter J K. Rowling 2005 29.99 Learning XML Erik T. Ray 2003 39.95非结构化的响应内容
html字符串
可以使用re、lxml等模块来提取特定数据
知识点:了解 响应内容的分类
- 认识xml以及和html的区别
要搞清楚html和xml的区别,首先需要我们来认识xml
2.1 认识xml
xml是一种可扩展标记语言,样子和html很像,功能更专注于对传输和存储数据
Everyday Italian Giada De Laurentiis 2005 30.00 Harry Potter J K. Rowling 2005 29.99 Learning XML Erik T. Ray 2003 39.952.2 xml和html的区别 二者区别如下
html:
超文本标记语言
为了更好的显示数据,侧重点是为了显示
xml:
可扩展标记语言
为了传输和存储数据,侧重点是在于数据内容本身
知识点:了解 xml和html的区别
2.3 常用数据解析方法
数据提取-jsonpath模块 知识点
了解 jsonpath模块的使用场景
掌握 jsonpath模块的使用
- jsonpath模块的使用场景
如果有一个多层嵌套的复杂字典,想要根据key和下标来批量提取value,这是比较困难的。jsonpath模块就能解决这个痛点,接下来我们就来学习jsonpath模块
jsonpath可以按照key对python字典进行批量数据提取
知识点:了解 jsonpath模块的使用场景
- jsonpath模块的使用方法
2.1 jsonpath模块的安装
jsonpath是第三方模块,需要额外安装
pip install jsonpath
2.2 jsonpath模块提取数据的方法
from jsonpath import jsonpath ret = jsonpath(a, 'jsonpath语法规则字符串') 2.4 jsonpath使用示例
book_dict = { "store": { "book": [ { "category": "reference", "author": "Nigel Rees", "title": "Sayings of the Century", "price": 8.95 }, { "category": "fiction", "author": "Evelyn Waugh", "title": "Sword of Honour", "price": 12.99 }, { "category": "fiction", "author": "Herman Melville", "title": "Moby Dick", "isbn": "0-553-21311-3", "price": 8.99 }, { "category": "fiction", "author": "J. R. R. Tolkien", "title": "The Lord of the Rings", "isbn": "0-395-19395-8", "price": 22.99 } ], "bicycle": { "color": "red", "price": 19.95 } } } from jsonpath import jsonpath print(jsonpath(book_dict, '$..author')) # 如果取不到将返回False # 返回列表,如果取不到将返回False
知识点:掌握 jsonpath模块的使用
数据提取-lxml模块 知识点
了解 lxml模块和xpath语法的关系
了解 lxml模块的使用场景
了解 lxml模块的安装
了解 谷歌浏览器xpath helper插件的安装和使用
掌握 xpath语法-基础节点选择语法
掌握 xpath语法-节点修饰语法
掌握 xpath语法-其他常用语法
掌握 lxml模块中使用xpath语法定位元素提取属性值或文本内容
掌握 lxml模块中etree.tostring函数的使用
- 了解 lxml模块和xpath语法
对html或xml形式的文本提取特定的内容,就需要我们掌握lxml模块的使用和xpath语法。
lxml模块可以利用XPath规则语法,来快速的定位HTML\XML 文档中特定元素以及获取节点信息(文本内容、属性值)
XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言,可用来在 HTML\XML 文档中对元素和属性进行遍历
提取xml、html中的数据需要lxml模块和xpath语法配合使用
知识点:了解 lxml模块和xpath语法
- 谷歌浏览器xpath helper插件的安装和使用
要想利用lxml模块提取数据,需要我们掌握xpath语法规则。接下来我们就来了解一下xpath helper插件,它可以帮助我们练习xpath语法
2.1 谷歌浏览器xpath helper插件的作用
在谷歌浏览器中对当前页面测试xpath语法规则
2.2 谷歌浏览器xpath helper插件的安装和使用
我们以windos为例进行xpath helper的安装
2.2.1 xpath helper插件的安装
下载Chrome插件 XPath Helper
可以在chrome应用商城进行下载,如果无法下载,也可以从下面的链接进行下载
把文件的后缀名crx改为rar,然后解压到同名文件夹中
把解压后的文件夹拖入到已经开启开发者模式的chrome浏览器扩展程序界面
重启浏览器后,访问url之后在页面中点击xpath图标,就可以使用了
如果是linux或macOS操作系统,无需操作上述的步骤2,直接将crx文件拖入已经开启开发者模式的chrome浏览器扩展程序界面
知识点:了解 谷歌浏览器xpath helper插件的安装和使用
- xpath的节点关系
学习xpath语法需要先了解xpath中的节点关系
3.1 xpath中的节点是什么
每个html、xml的标签我们都称之为节点,其中最顶层的节点称为根节点。我们以xml为例,html也是一样的
- xpath语法-基础节点选择语法
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。
这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。
使用chrome插件选择标签时候,选中时,选中的标签会添加属性class="xh-highlight"
4.1 xpath定位节点以及提取属性或文本内容的语法
表达式 描述 nodename 选中该元素。 / 从根节点选取、或者是元素和元素间的过渡。 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 . 选取当前节点。 .. 选取当前节点的父节点。 @ 选取属性。 text() 选取文本。 4.2 语法练习
选择所有的h2下的文本
//h2/text()
获取所有的a标签的href
//a/@href
获取html下的head下的title的文本
/html/head/title/text()
获取html下的head下的link标签的href
/html/head/link/@href
知识点:掌握 xpath语法-选取节点以及提取属性或文本内容的语法
- xpath语法-节点修饰语法
可以根据标签的属性值、下标等来获取特定的节点
5.1 节点修饰语法
路径表达式 结果 //title[@lang="eng"] 选择lang属性值为eng的所有title元素 /bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。 /bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。 /bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。 /bookstore/book[position()>1] 选择bookstore下面的book元素,从第二个开始选择 //book/title[text()='Harry Potter'] 选择所有book下的title元素,仅仅选择文本为Harry Potter的title元素 /bookstore/book[price>35.00]/title 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。 5.2 关于xpath的下标
在xpath中,第一个元素的位置是1
最后一个元素的位置是last()
倒数第二个是last()-1
5.3 语法练习
所有的学科的名称
//div[@class="nav_txt"]//a[@class="a_gd"]
第一个学科的链接
//div[@class="nav_txt"]/ul/li[1]/a/@href
最后一个学科的链接
//div[@class="nav_txt"]/ul/li[last()]/a/@href
知识点:掌握 xpath语法-选取特定节点的语法
- xpath语法-其他常用节点选择语法
可以通过通配符来选取未知的html、xml的元素
6.1 选取未知节点的语法
通配符 描述
- 匹配任何元素节点。 node() 匹配任何类型的节点。 6.2 语法练习
全部的标签
//*
全部的属性
//node()
知识点:掌握 xpath语法-选取位置节点的语法
- lxml模块的安装与使用示例
lxml模块是一个第三方模块,安装之后使用
7.1 lxml模块的安装
对发送请求获取的xml或html形式的响应内容进行提取
pip/pip3 install lxml 知识点:了解 lxml模块的安装
7.2 爬虫对html提取的内容
提取标签中的文本内容
提取标签中的属性的值
比如,提取a标签中href属性的值,获取url,进而继续发起请求
7.3 lxml模块的使用
导入lxml 的 etree 库
from lxml import etree
利用etree.HTML,将html字符串(bytes类型或str类型)转化为Element对象,Element对象具有xpath的方法,返回结果的列表
html = etree.HTML(text) ret_list = html.xpath("xpath语法规则字符串") xpath方法返回列表的三种情况
返回空列表:根据xpath语法规则字符串,没有定位到任何元素
返回由字符串构成的列表:xpath字符串规则匹配的一定是文本内容或某属性的值
返回由Element对象构成的列表:xpath规则字符串匹配的是标签,列表中的Element对象可以继续进行xpath
7.4 lxml模块使用示例
运行下面的代码,查看打印的结果
from lxml import etree text = '''
- first item
- second item
- third item
- fourth item
- a href="link5.html">fifth item
8 练习
将下面的html文档字符串中,将每个class为item-1的li标签作为1条新闻数据。提取a标签的文本内容以及链接,组装成一个字典。
text = '''
''' 注意:先分组,再提取数据,可以避免数据的错乱
对于空值要进行判断
知识点:掌握 lxml模块中etree.tostring函数的使用
四、selenium的使用 selenium的介绍 知识点:
了解 selenium的工作原理
了解 selenium以及chromedriver的安装
掌握 标签对象click点击以及send_keys输入
- selenium运行效果展示
Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接调用浏览器,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏等。我们可以使用selenium很容易完成之前编写的爬虫,接下来我们就来看一下selenium的运行效果
1.1 chrome浏览器的运行效果
在下载好chromedriver以及安装好selenium模块后,执行下列代码并观察运行的过程
from selenium import webdriver
如果driver没有添加到了环境变量,则需要将driver的绝对路径赋值给executable_path参数
driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')
如果driver添加了环境变量则不需要设置executable_path
driver = webdriver.Chrome()
向一个url发起请求
driver.get("www.itcast.cn/")
把网页保存为图片,69版本以上的谷歌浏览器将无法使用截图功能
driver.save_screenshot("itcast.png")
print(driver.title) # 打印页面的标题
退出模拟浏览器
driver.quit() # 一定要退出!不退出会有残留进程!
1.2 phantomjs无界面浏览器的运行效果
PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript。
from selenium import webdriver
指定driver的绝对路径
driver = webdriver.PhantomJS(executable_path='/home/worker/Desktop/driver/phantomjs')
driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')
向一个url发起请求
driver.get("www.itcast.cn/")
把网页保存为图片
driver.save_screenshot("itcast.png")
退出模拟浏览器
driver.quit() # 一定要退出!不退出会有残留进程! 1.3 观察运行效果
python代码能够自动的调用谷歌浏览或phantomjs无界面浏览器,控制其自动访问网站
1.4 无头浏览器与有头浏览器的使用场景
通常在开发过程中我们需要查看运行过程中的各种情况所以通常使用有头浏览器
在项目完成进行部署的时候,通常平台采用的系统都是服务器版的操作系统,服务器版的操作系统必须使用无头浏览器才能正常运行
- selenium的作用和工作原理
利用浏览器原生的API,封装成一套更加面向对象的Selenium WebDriver API,直接操作浏览器页面里的元素,甚至操作浏览器本身(截屏,窗口大小,启动,关闭,安装插件,配置证书之类的)
webdriver本质是一个web-server,对外提供webapi,其中封装了浏览器的各种功能
不同的浏览器使用各自不同的webdriver
知识点:了解 selenium的工作原理
- selenium的安装以及简单使用
我们以谷歌浏览器的chromedriver为例
3.1 在python虚拟环境中安装selenium模块
pip/pip3 install selenium
3.2 下载版本符合的webdriver
知识点:了解 selenium以及chromedriver的安装
- selenium的简单使用
接下来我们就通过代码来模拟百度搜索
import time from selenium import webdriver
通过指定chromedriver的路径来实例化driver对象,chromedriver放在当前目录。
driver = webdriver.Chrome(executable_path='./chromedriver')
chromedriver已经添加环境变量
driver = webdriver.Chrome()
控制浏览器访问url地址
driver.get("www.baidu.com/")
在百度搜索框中搜索'python'
driver.find_element_by_id('kw').send_keys('python')
点击'百度搜索'
driver.find_element_by_id('su').click() time.sleep(6)
退出浏览器
driver.quit()
webdriver.Chrome(executable_path='./chromedriver')中executable参数指定的是下载好的chromedriver文件的路径
driver.find_element_by_id('kw').send_keys('python')定位id属性值是'kw'的标签,并向其中输入字符串'python'
driver.find_element_by_id('su').click()定位id属性值是su的标签,并点击
click函数作用是:触发标签的js的click事件
知识点:掌握 标签对象click点击以及send_keys输入
selenium提取数据 知识点:
了解 driver对象的常用属性和方法
掌握 driver对象定位标签元素获取标签对象的方法
掌握 标签对象提取文本和属性值的方法
- driver对象的常用属性和方法
在使用selenium过程中,实例化driver对象后,driver对象有一些常用的属性和方法
driver.page_source 当前标签页浏览器渲染之后的网页源代码
driver.current_url 当前标签页的url
driver.close() 关闭当前标签页,如果只有一个标签页则关闭整个浏览器
driver.quit() 关闭浏览器
driver.forward() 页面前进
driver.back() 页面后退
driver.screen_shot(img_name) 页面截图
知识点:了解 driver对象的常用属性和方法
- driver对象定位标签元素获取标签对象的方法
在selenium中可以通过多种方式来定位标签,返回标签元素对象
find_element_by_id (返回一个元素) find_element(s)_by_class_name (根据类名获取元素列表) find_element(s)_by_name (根据标签的name属性值返回包含标签对象元素的列表) find_element(s)_by_xpath (返回一个包含元素的列表) find_element(s)_by_link_text (根据连接文本获取元素列表) find_element(s)_by_partial_link_text (根据链接包含的文本获取元素列表) find_element(s)_by_tag_name (根据标签名获取元素列表) find_element(s)_by_css_selector (根据css选择器来获取元素列表) 注意:
find_element和find_elements的区别:
多了个s就返回列表,没有s就返回匹配到的第一个标签对象
find_element匹配不到就抛出异常,find_elements匹配不到就返回空列表
by_link_text和by_partial_link_tex的区别:全部文本和包含某个文本
以上函数的使用方法
driver.find_element_by_id('id_str')