爬虫 - rock520的收藏集 - 掘金

爬虫

更多收藏集

6篇文章 · 0订阅

如果有人问你爬虫抓取技术的门道，请叫他来看这篇文章

web是一个开放的平台，这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展。然而，正所谓成也萧何败也萧何，开放的特性、搜索引擎以及简单易学的html、css技术使得web成为了互联网领域里最为流行和成熟的信息传播媒介；但如今作为商业化软件，web这个平台上的内容信息…

5u9ar
8年前
21k
760
23

大型爬虫案例：爬取去哪儿网自由行数据(10万条数据)

世界那么大,我想去看看。相信每到暑假期间,就会有很多人都想去旅游。但是去哪里玩，没有攻略这又是个问题。这次作者给大家带来的是爬取去哪网自由行数据。先来讲解一下大概思路，我们去一个城市旅行必定有一个出发地，然后有一个目的地，再然后我们就会搜寻当地的名胜然后选择一条路线。这个就是我…

NGU
7年前
2.4k
1
评论

爬虫进阶之去哪儿酒店(国内外)

之前发了一篇爬取去哪儿自由行(可采集最少10万条数据)的文章后，有一个读者在后台问到我怎么爬取去哪儿酒店的数据。当时简单看了下,觉得难度不大。就跟他讲了下思路。因为当时爬取自由行的网站选取的是移动端。为了能让读者学习到更多的知识，我们今天选取了去哪儿的电脑端来进行爬取。其实爬虫…

NGU
7年前
3.2k
31
评论

「译」如何用 Node.Js 和 Puppeteer 爬取网页

如果你像我一样，有时非常急切地想要抓去某个网页，得到可读格式的数据，或仅是需要这些数据用做其他目的。 Puppeteer 是一个 Node 代码库，基于 DevTools 协议，提供高级 API 自动化控制谷歌Chrome 或 Chromium浏览器。Puppeteer 默认以…

巴都万
7年前
5.7k
122
6

利用puppeteer破解极验的滑动验证

1. 打开前端网，点击登录。 2. 填写账号，密码。 3. 点解验证按钮，通过滑动验证，最后成功登陆。 github上可以checkout。 1. 将这个两个文件保存到文件夹下面，终端切换到当前路径下 2. npm i 3. 补上前端网的账号，密码 4. node run 1.…

YDJFE
8年前
24k
396
31

利用puppeteer破解极验的滑动验证

Node: Puppeteer + 图像识别实现百度指数爬虫

之前看过一篇脑洞大开的文章，介绍了各个大厂的前端反爬虫技巧，但也正如此文所说，没有100%的反爬虫方法，本文介绍一种简单的方法，来绕过所有这些前端反爬虫手段。可以发现，百度指数实际上在前端做了一定的反爬虫策略。当鼠标移动到图表上时，会触发两个请求，一个请求返回一段html，一…

岛书Z
8年前
8.7k
196
8