python爬取qq音乐歌手排行热度数据

531 阅读2分钟

最近浪姐3的热度真的很高,乘风破浪的姐姐初舞台表演热度榜单公布,王心凌热度断层第一,《爱你》的播放量高达730万次,第二名和第三名加起来的数据都没有她高,热度碾压式断层水平。之前都是刘畊宏女孩火出圈,现在网络上都是王心凌男孩火出圈,网友:们都表示自己的青春回来了!
咱就是说王心凌真的永远的神!《爱你》直接登顶QQ音乐飙升榜!而且前十排名王心凌就占了9首,这热度真的不要太高了。那作为爬虫我们也来蹭下热度吧,今天我们就利用python咱们再来抬高一波QQ音乐的热度吧,获取王心凌在qq音乐的所有音乐数据。在获取数据之前简单的分析了下网站,反爬机制还是有的,在访问过程中我们基本的反爬措施需要做好,随机ua,cookie,代理IP。这里选择了由亿牛云提供的爬虫代理。爬虫实现代码如下:

#! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text

通过获取到的数据,我们得到指定歌手单曲的歌曲名,专辑名,播放链接以及评论信息。原本的爬取过程是比较复杂的,这里我简化了,只是重点讲述了下添加代理的过程。希望对一些新手爬虫有学习意义。

若有收获,就点个赞吧