持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第6天
今天是爬取虎牙直播图片的代码
import requests
#Python向服务器发起网络请求
from lxml import etree
from urllib import request
#1.到网站里面确定一个网址,请求网络
url = 'https://www.huya.com/g/4079'
#2.用Python跟这个网址先做一个了解
result = requests.get(url=url).text
#3.在网站源码内筛选我们需要的数据 json xpath re bs4 pyquery
data = etree.HTML(result)
demo = data.xpath('//img[@class="pic"]')
#4.保存数据
# 下载图片 # url图片直接访问网址然后获取二进制格式即可,如
# requests.get(url=pic).content
# 设置图片文件名、图片内容是访问url得来的
# **解析网页数据**
# 用字典保存直播间信息
# 设置文件路径
for i in demo:
newUrl = i.xpath('./@data-original')[0]
newName = i.xpath('./@alt')[0]
request.urlretrieve(newUrl, r'C:\Users\LENOVO\Desktop\虎牙英雄联盟\' + newName + '.jpg')
print("<%s>下载完毕!" % newName)
在桌面新建一个虎牙英雄联盟的文件,然后把代码里的路径修改一下
然后运行就可以了,可以看到连主播的名字也爬取下来了
运行出来的效果
主要分三步:
一是从html文档中解析出封面图片的url、主播id、直播间标题、直播间链接等信息,并用字典保存下来,运用到请求库requests、正则库re
二是创建文件路径,在当前路径下创建一个名为huya的文件夹,然后把获取到的主播id作为图片jpg文件名,使用系统库os来操作文件
三是遍历字典,访问图片的url,获取二进制格式content,并write到jpg文件中
那么问题来了,你喜欢哪位漂亮女主播呢?