前言
今天给大家介绍的是Python爬虫批量下载喜马拉雅评书音频数据保存本地,在这里给需要的小伙伴们帮助,并且给出一点小心得。
开发工具
Python版本: 3.6
相关模块:
requests模块
re模块
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
文中完整代码及文件,评论留言获取
数据来源查询分析
浏览器中打开我们要爬取的页面 按F12进入开发者工具,查看我们想要的喜马拉雅相声评书精选音频在哪里 这里我们需要页面数据就可以了
代码实现
# 音频列表页面
url = 'https://www.ximalaya.com/album/9723091'
# 伪装模拟 headers 请求头<字典数据类型>
headers = {
# user-agent 用户代理, 表示浏览器基本身份信息
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
'cookie': '你的Cookie'
}
# 发送请求:
# 调用requests模块里面get请求方法, 对于url地址发送请求, 并且携带上headers请求头伪装, 最后用自定义变量response接受返回数据
response = requests.get(url=url, headers=headers)
# <Response [200]> response响应<>对象 200 状态码 表示请求成功
print(response)
# 音频名字
titles = re.findall('"tag":0,"title":"(.*?)","playCount"', response.text)
# 音频ID
audio_id_list = re.findall('"url":"/sound/(\d+)","duration"', response.text)
# for循环遍历, 把列表里面元素一个一个提取出来
for title, audio_id in zip(titles, audio_id_list):
# 字符串格式化方法 format 把 audio_id 传到 这个链接里面
link = f'https://www.ximalaya.com/revision/play/v1/audio?id={audio_id}&ptype=1'
# 发送请求
response_1 = requests.get(url=link, headers=headers)
# 获取数据 response.json() 获取响应json字典数据
# print(response_1.json())
Cookie获取
效果展示
总结
本篇介绍了主要使用 requests
模块来请求数据,使用起来也是非常简单感兴趣的可以自己尝试一下。本篇源码已上传至公众号。
我是戴沐白,微信公众号:Python工程狮。
👍🏻:觉得有收获请点个赞鼓励一下!
🌟:收藏文章,方便回看哦!
💬:评论交流,互相进步!