最新酷狗音乐反爬来袭,Python掌握酷狗排行榜加密规则

317 阅读2分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第17天,点击查看活动详情 大家好 ,我是辣条。

对你有用的话记得三连呦!

效果展示

爬取目标 网址:酷我音乐

工具使用 开发工具:pycharm

开发环境:python3.7, Windows10

使用工具包:requests,re

项目思路解析 找到需要解析的榜单数据

随意点击一个歌曲获取到音乐的详情数据 通过抓包的方式获取到音乐播放数据

找到MP3的数据提交地址 mp3数据来自于这个url地址

提交数据的网址:

wwwapi.kugou.com/yy/index.ph… 将多个网址数据进行对比看看哪些参数是需要自行修改的 变化的url数据有3个

hash

album_id

_

_ 可以明显看出来是时间戳 需要获取到对应的hash以及album_id的值 来到主页找寻对应的歌曲id数据 发现数据来自网页源代码

歌曲的数据都是来自网页源代码

梳理整体思路:

从首页源码里提取出对应的hash、album_id值

组合成新的url地址

获取到json数据总的歌曲播放地址##

简易源码分析 本章内容只限学习,切勿用作其他用途!!!!!

import requests import re import time ​ ​ def Tools(url): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.70' } response = requests.get(url, headers=headers) return response ​ ​ def Save(name, url): mp3 = Tools(url).content # 请求mp3地址链接 返回格式是16进制 f = open('./kugou/{}.mp3'.format(name), 'wb') # w 文件存在就写入 不存在就会创建 b进制读写 f.write(mp3) f.close() print('{}下载完成....'.format(name)) ​ ​ url = 'www.kugou.com/yy/html/ran…' response = Tools(url).text album_id = re.findall(r'"album_id":(\d*?),', response) # id Hash = re.findall(r'"Hash":"(.*?)",', response) # hash ​ for a, h in zip(album_id, Hash): # 生成时间戳 time1 = int(time.time() * 1000) # 包含歌曲下载地址的url urls = 'wwwapi.kugou.com/yy/index.ph…, a, time1) response1 = Tools(urls).json() audio_name = response1['data']['audio_name'].split('-')[1] play_url = response1['data']['play_url'] Save(audio_name, play_url) ​

关注我持续为您分享干货内容,你的收藏、评论、点赞就是对我最大的支持!