Python爬虫都被你用来爬妹子图了,我等羞愧与之为伍!

123 阅读3分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第N天,点击查看活动详情大家好,我是辣条。

今天主要分享一个粉丝朋友找我帮他爬一个妹子图网站,不过网站图片尺度比较大,所以也不留链接了,虽然比较简单,但还是很有学习意义的,我这绝不是水文章!学习的事当然要分享给大家。

效果展示

采集数据目标 网站:不提供(狗头保命,防止进小黑屋)

工具使用 开发工具:pycharm

开发环境:python3.7, Windows10

使用工具包:requests,lxml

重点学习内容 requests工具使用

xpath提取网页数据

项目解析思路 获取到首页信息,通过requests请求网页数据,当前网页数据为动态加载数据。

url参数修改请求其他页面,通过xpath方式提取到进入详情页面的网址,详情页面的信息会更加的精彩。

提取到进入详情页面的a标签,再次请求网页数据,得到详情页面数据,再次通过xpath方式获取到图片的标签以及图片的名字,要注意的是img标签里的图片地址其实是动态图,我们需要获取的数据是div标签里的data-src。

获取到对应图片标签,保存对应图片数据 大功告成!!!

需要网站地址关注三连+私❤我获取【仅供学习交流,一定要三连收藏哦,不然容易找不着】

简易源码分享 import requests from lxml import etree ​ ​ ​ url = 'www.xxxx.com/page/4/' response = requests.get(url) html = etree.HTML(response.text) href_list = html.xpath('//div[@class="item-title"]/a/@href') for href in href_list: res = requests.get(href) html_data = etree.HTML(res.text) img_url_list = html_data.xpath('//div[@data-fancybox="gallery"]/@data-src') img_name_list = html_data.xpath('//img/@alt') print(img_url_list) for img_url, img_name in zip(img_url_list, img_name_list): result = requests.get(img_url).content with open('图片/' + img_name + ".jpg", "wb")as f: f.write(result) print("正在下载:", img_name) ​

仅供学习交流!!侵删!

文章知识点与官方知识档案匹配,可进一步学习相关知识 Python入门技能树网络爬虫urllib105886 人正在系统学习中

源码/资料/实战项目,备注:C站

微信名片

五包辣条! 关注

120

137

0

专栏目录 Python爬取全站妹子图片,差点硬盘走火了! Python这样学 342 在这严寒的冬日,为了点燃我们的热情给大家带来了偷偷收藏了很久的好东西。大家要注意点哈,自己操作的时候别走火! 1.所需库安装 2.网站分析 首先打开妹子图的官网(mzitu.com),点击菜单(最新),经过观察(最新)发现是按时间来排序的,也就是网站全部的组图按发布时间来排序的,页面链接为mzitu.com/page/1, mzitu.com/page/2最后面的数字递增,所以将(最新)的图片... Python使用Scrapy爬取妹子图 09-22 前面我们给大家介绍了使用nodejs来爬取妹纸图片的方法,下面我们来看下使用Python是如何实现的呢,有需要的小伙伴参考下吧。 Python爬虫福利:带你爬取妹子图上的美女图片,学习改变生活 weixin_53371737的博客 1750 学习python爬虫,总得实战演练一下才能真正有所收获。今天我们就来用python爬虫爬取妹子图,哇~全是美女哦!那么,我们步入正题吧! 看完这篇文章,你将会用python爬虫做到这样: 首先我们打开萌妹子的入口链接,然后我们需要分析下网页中结构,通过分析页面,获取我们有用的内容。 首先我们看这个url地址的组成,可以分析得出,这个url组成中包含一个分类,这里显示的是cute,那么我们如果使用python爬虫构建这个url的时候替换这个部分,就可以访问不同的图片分类,从而获取我们想要的类型。 在ur 妹子图简单爬取 weixin_42948137的博客 147 使用url