爬虫 - 清风XF的收藏集 - 掘金

爬虫

更多收藏集

26篇文章 · 0订阅

反爬虫微信文章

在爬虫时，某些网站会有封ip的现象,所以选择利用代理伪装我们的ip进行爬虫请求，但进行爬虫时可能需要很多ip，这时就要求维护一个代理池（池也就是代理队列），可放进代理，也可取出代理。本文中选择的崔庆才老师维护的代理池，是用Flask和Redis维护的一个代理池。

一个普普通通简简单单
8年前
1.8k
30
1

用100行Python爬虫代码抓取公开的足球数据玩（一）

在《用Python模拟2018世界杯夺冠之路》一文中，我选择从公开的足球网站用爬虫抓取数据，从而建模并模拟比赛，但是略过了爬虫的实施细节。虽然爬虫并不难做，但希望可以让更多感兴趣的朋友自己动手抓数据下来玩，提供便利，今天就把我抓取球探网的方法和Python源码拿出来分享给大家，…

红烧不是清蒸
8年前
5.6k
18
1

爬虫利器 Puppeteer 实战

手动下载 Chromium，下载完后将压缩包解压，会有个 Chromium.app，将其放在你喜欢的目录下，例如 /Users/huqiyang/Documents/project/z/chromium/Chromium.app。正常安装包后 Chromium.app 会在 .…

豆腐四块十块
8年前
16k
257
14

如何用Python爬虫实现百度图片自动下载？

我们的爬虫至少要实现两个功能：一是搜索图片，二是自动下载。打开源代码之后，发现一堆源代码比较难找出我们想要的资源。这个时候，就要用开发者工具！我们回到上一页面，调出开发者工具，我们需要用的是左上角那个东西：(鼠标跟随)。然后选择你想看源代码的地方，就可以发现，下面的代码区…

nnngu
8年前
2.6k
61
3

Scrapy框架的使用之Scrapy爬取新浪微博

前面讲解了Scrapy中各个模块基本使用方法以及代理池、Cookies池。接下来我们以一个反爬比较强的网站新浪微博为例，来实现一下Scrapy的大规模爬取。本次爬取的目标是新浪微博用户的公开基本信息，如用户昵称、头像、用户的关注、粉丝列表以及发布的微博等，这些信息抓取之后保存…

崔庆才丨静觅
8年前
6.7k
39
1

【Python3网络爬虫开发实战】5-数据存储-1 文件存储-3 CSV文件存储

CSV，全称为Comma-Separated Values，中文可以叫作逗号分隔值或字符分隔值，其文件以纯文本形式存储表格数据。该文件是一个字符序列，可以由任意数目的记录组成，记录间以某种换行符分隔。每条记录由字段组成，字段间的分隔符是其他字符或字符串，最常见的是逗号或制表符。…

崔庆才丨静觅
8年前
1.3k
8
评论

【Python3网络爬虫开发实战】5-数据存储-1 文件存储-3 CSV文件存储

python爬取猫眼正在热映电影

手动闭合dd后通过etree.HTML把HTML转为XML，利用xpath语法可以快速匹配我们需要的节点。我们可以看到电影数据都是在dd里面，评分分为暂无评分和具体评分 2种，父元素是dl，而它的class[movie-list]在页面只有一个。自此已经可以请求网页并…

静然顾遗尘
8年前
1.8k
21
评论

Python学习：爬个电影资源网站

我们抓的网站地址是http://xwxmovie.cn/用了selenium、BeautifulSoup首先还是最基本的初始化代码一开始想用BeautifulSoup抓取片段的，犹豫刚学，很多API还

尤小红
8年前
2.5k
52
评论

如何一小时爬取百万知乎用户信息，并做简单的可视化分析？

本文主要是从爬虫架构、源码分析、以及可视化结果展示介绍如何实现快速爬取百万知乎用户信息，实现简单可视化分析

九章算法
8年前
1.4k
31
1

如何用Python网络爬虫爬取网易云音乐歌曲

今天小编带大家一起来利用Python爬取网易云音乐，分分钟将网站上的音乐down到本地。跟着小编运行过代码的筒子们将网易云歌词抓取下来已经不再话下了，在抓取歌词的时候在函数中传入了歌手ID和歌曲名两个参数，其实爬取歌曲也是同样的道理，也需要传入这两个参数，只不过网易云歌曲的U…

Python进阶者
8年前
4.2k
39
7