Python爬虫04--Request Headers 中的内容代表啥

117 阅读1分钟

GET HTTP/1.1    # 请求方法

Host:  event.csdn.net    # IP地址或者域名

Connection:  keep-alive    # 使用长链接 / 想要复用上层链接    为了不用频繁的请求链接,加快响应速度

Accept:  */*     # 能够接收的数据格式类型

Origin:   blog.csdn.net

User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.116 Safari/537.36    # 包含了访问设备与浏览器的信息数据,不同的浏览器版本号不一样,User-Agent不一样,十分重要

Content-Type: text/plain;charset=UTF-8    # 网站内容包含的数据类型

Sec-Fetch-Site: same-site

Sec-Fetch-Mode: cors

Referer: blog.csdn.net/weixin_4732… # 页面从哪里跳转

Accept-Encoding: gzip, deflate, br   # 能够接受的编码格式与类型

Accept-Language: zh-CN,zh;q=0.9  # 能够接受的语言,q表示权重,越大越优先

Cookie :************** # 保存的用户信息与用户特征

Upfrade-Insecure-Requests = 1 # 支持升级为HTTPS请求

x-requsted-with: XMLHttpRequest (Ajax异步请求)

爬虫中最注重的是 User-Agent 和 Cookie