爬虫虎牙直播的图片持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第6天今天是爬取虎牙直播图片的

持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第6天

今天是爬取虎牙直播图片的代码

import requests 
#Python向服务器发起网络请求
from lxml import etree
from urllib import request
#1.到网站里面确定一个网址，请求网络
url = 'https://www.huya.com/g/4079'
#2.用Python跟这个网址先做一个了解
result = requests.get(url=url).text
#3.在网站源码内筛选我们需要的数据  json xpath re bs4 pyquery
data = etree.HTML(result)
demo = data.xpath('//img[@class="pic"]')
#4.保存数据
# 下载图片 # url图片直接访问网址然后获取二进制格式即可，如
# requests.get(url=pic).content
# 设置图片文件名、图片内容是访问url得来的
# **解析网页数据**
# 用字典保存直播间信息
# 设置文件路径
for  i  in demo:
    newUrl = i.xpath('./@data-original')[0]
    newName = i.xpath('./@alt')[0]
    request.urlretrieve(newUrl, r'C:\Users\LENOVO\Desktop\虎牙英雄联盟\' + newName + '.jpg')
    print("<%s>下载完毕!" % newName)

在桌面新建一个虎牙英雄联盟的文件，然后把代码里的路径修改一下然后运行就可以了，可以看到连主播的名字也爬取下来了

运行出来的效果

主要分三步：
一是从html文档中解析出封面图片的url、主播id、直播间标题、直播间链接等信息，并用字典保存下来，运用到请求库requests、正则库re

二是创建文件路径，在当前路径下创建一个名为huya的文件夹，然后把获取到的主播id作为图片jpg文件名，使用系统库os来操作文件

三是遍历字典，访问图片的url，获取二进制格式content，并write到jpg文件中

那么问题来了，你喜欢哪位漂亮女主播呢？