python爬虫新手学习日记(二)

189 阅读1分钟

爬取百度翻译内容

①分析百度翻译

浏览器网址处打开百度翻译网站(fanyi.baidu.com/)

一、右键检查打开网页调试工具

image.png
二、在搜索框中输入hello,可以在下面的抓包工具看到5个sug

image.png 里面的内容分别为:

image.png

image.png

image.png

image.png

image.png
刚好对应着hello这个单词每次输入一个字母,说明每当我们按下一个字母就会向服务器里发送一次请求
在Headers的General中我们可以看到以下信息

image.png
网址是fanyi.baidu.com/sug
请求方式是 POST

②写爬虫代码

import requests  #导入requests库

url = 'https://fanyi.baidu.com/sug' #网站

headers = {  #伪装浏览器
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36"
}

kw = input("请输入关键词:")

param = {  #写入关键词
    'kw': kw
}

resp = requests.post(url=url, params=param, headers=headers)  #使用post请求获取相应数据
print(resp.json()) #以JSON的形式输出

image.png