url
https 比 http 多了一个ssm协议 ,就是保护安全的
url 包括 协议,主机,端口号,路径,参数,锚点组成
端口号有 :
爬取 https的数据
所以我们就需要用到UA反爬
UA 反爬
User Agent : 用户代理 ,简称UA , 是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、cpu类型、浏览器及版本、浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等
urllib.request.Request()
UA 在哪里
在要查询的网页中 进行 f12
点击网络 network
然后刷新页面
点击进去
把user-agent 复制下来
所以我们拿到user-agent后
但这样的话,也不会爬取到 , 发现 urlopen中不能存储字典,所以headers不能传递进去,
搞定!!