阅读 147

Python3.x爬取网易云音乐歌单

Python3.x爬取网易云音乐歌单

该篇紧紧是作为入门练手使用,爬取功能不包含收费音乐,也不包含无损音乐,完整代码在文章末。

分析

1. 获取请求头 header

用抓包工具fiddler/charles抓包,抓出歌单的请求头header信息。在代码中已经写好,可省去该步骤。

2. 分析歌单链接信息

打开一个歌单,地址是这样的
https://music.163.com/#/playlist?id=2944697443
我们把这个链接换成http,然后去掉/#
http://music.163.com/playlist?id=2944697443
该链接同样指向该歌单地址,我们使用这个地址。

3. 获取每首音乐的ID

用浏览器打开歌单的链接,将鼠标移至某个音乐上点检查,就能看到歌曲的id信息。如图。

1.jpg

4. 音乐的外链地址

网易云音乐的mp3文件的外链地址
music.163.com/song/media/…

根据该地址分析,我们更换不同id即可

该地址在浏览器中效果,如下图

2.jpg

该步骤,值得注意的是,根据外链mp3地址访问后,会有一个重定向,所以代码中也需要加上。

5. 保存mp3文件即可

完整代码

#! python3
#encoding=utf8
import requests
from bs4 import BeautifulSoup
import urllib.request
headers = {
    'Referer':'http://music.163.com/',
    'Host':'music.163.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    }

play_url = 'http://music.163.com/playlist?id=2308326138'
s = requests.session()
response=s.get(play_url,headers = headers).content
#print(response) 整个html源文件
s = BeautifulSoup(response,'lxml')
#print(s) 
main = s.find('ul',{'class':'f-hide'})

#print(main)

 
lists=[]
for music in main.find_all('a'):
    #print('{} : {}'.format(music.text, music['href']))
    list=[]
    musicUrl='http://music.163.com/song/media/outer/url'+music['href'][5:]+'.mp3'
    musicName=music.text
    # 单首歌曲的名字和地址放在list列表中
    list.append(musicName)
    list.append(musicUrl)
    # 全部歌曲信息放在lists列表中
    lists.append(list)
 
print(lists)


# 重定向代码
def get_redirect_url(url):
    # 重定向前的链接
    # url = "重定向前的url"
    # 请求头,这里我设置了浏览器代理
    headers = {
    'Referer':'http://music.163.com/',
    'Host':'music.163.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    }
    # 请求网页
    response = requests.get(url, headers=headers)
    # print(response.status_code)  # 打印响应的状态码
    # print(response.url)  # 打印重定向后的网址
    # 返回重定向后的网址
    return response.url

#下载列表中的全部歌曲,并以歌曲名命名下载后的文件,文件位置为当前文件夹
for i in lists:
    url=i[1]
    name=i[0]
    try:
        print('正在下载',name)
        # 直接下载会失败,把类似链接放入浏览器中发现自动重定向了一个地址。来模拟下重定向
        # 事先要自己手动创建一个 ‘wangyi’ 的文件夹哦
        # urllib.request.urlretrieve(url,'./%s.mp3'% name)
        urllib.request.urlretrieve(get_redirect_url(url),'./wangyi/%s.mp3'% name)
        print('下载成功')
    except:
        print('下载失败')

复制代码
文章分类
人工智能
文章标签