最近浪姐3的热度真的很高,乘风破浪的姐姐初舞台表演热度榜单公布,王心凌热度断层第一,《爱你》的播放量高达730万次,第二名和第三名加起来的数据都没有她高,热度碾压式断层水平。之前都是刘畊宏女孩火出圈,现在网络上都是王心凌男孩火出圈,网友:们都表示自己的青春回来了!
咱就是说王心凌真的永远的神!《爱你》直接登顶QQ音乐飙升榜!而且前十排名王心凌就占了9首,这热度真的不要太高了。那作为爬虫我们也来蹭下热度吧,今天我们就利用python咱们再来抬高一波QQ音乐的热度吧,获取王心凌在qq音乐的所有音乐数据。在获取数据之前简单的分析了下网站,反爬机制还是有的,在访问过程中我们基本的反爬措施需要做好,随机ua,cookie,代理IP。这里选择了由亿牛云提供的爬虫代理。爬虫实现代码如下:
#! -*- encoding:utf-8 -*-
import requests
import random
# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"
# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text
通过获取到的数据,我们得到指定歌手单曲的歌曲名,专辑名,播放链接以及评论信息。原本的爬取过程是比较复杂的,这里我简化了,只是重点讲述了下添加代理的过程。希望对一些新手爬虫有学习意义。
若有收获,就点个赞吧