15 爬虫urllib_请求对象的定制

80 阅读1分钟

url

https 比 http 多了一个ssm协议 ,就是保护安全的

url 包括 协议,主机,端口号,路径,参数,锚点组成

image.png

端口号有 :

image.png

爬取 https的数据

image.png

image.png

所以我们就需要用到UA反爬

UA 反爬

User Agent : 用户代理 ,简称UA , 是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、cpu类型、浏览器及版本、浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等

urllib.request.Request()

UA 在哪里

在要查询的网页中 进行 f12

点击网络 network

image.png

然后刷新页面

image.png

点击进去

image.png

把user-agent 复制下来

所以我们拿到user-agent后

image.png

但这样的话,也不会爬取到 , 发现 urlopen中不能存储字典,所以headers不能传递进去,

image.png

搞定!!