爬取网页时中文乱码问题解决

162 阅读1分钟

第一种方法

import requests
url = "https://www.iqiyi.com/"
header = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
html = requests.get(url,headers=header)
# 这行代码用于处理乱码(第一种)
html.encoding = "utf-8"
MyHtml = html.text
print(MyHtml)

第二种方法

有的时候第一种方法可能没用,就可以尝试第二种方法

import requests
url = "https://www.iqiyi.com/"
header = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
html = requests.get(url,headers=header)
# 这行代码用于处理乱码(第二种)
MyHtml=html.text.encode('iso-8859-1').decode('gbk')
MyHtml = html.text
print(MyHtml)

查看网页编码方式

首先呢,咱来说说如何在网页中查看编码方式,以爱奇艺为例,爱奇艺进入爱奇艺网页页面,鼠标    “右击–>检查–>点击Console–>输入document.charse   即可显示出网页的编码格式