爬虫 - 卡卡桃乐西的收藏集 - 掘金

爬虫

卡卡桃乐西

更多收藏集

6篇文章 · 0订阅

node 爬虫，使用 Google puppeteer 抓取 One一个的网页数据

puppeteer 就不多介绍了，就是一个无界面化的谷歌浏览器。作者本人是前端，后端方面的知识不太擅长，感觉漏洞还是蛮多的。本教程是作者见猎心喜然后把玩了一下写的，有不合理的地方还请包涵。本例子是使用顺序爬取，没有用并行爬取，并设置了延时器，主要是担心访问频次太高会被屏蔽…

猪不乐意
8年前
5.8k
73
评论

爬虫必备：Python 执行 JS 代码 —— PyExecJS、PyV8、Js2Py

这个库主要是将 JS 代码运行在本地的 JS 环境中，优点是我们有多种 JS 环境的选择，官方推荐了 PyV8、Node.js、PhantomJS、Nashorn 四种，当然缺点是必须安装一种环境导致不是很轻量，而且调用时有一个启动环境过程，还是有明显缓慢的。先解决 JS 环…

张凯强zkqiang
7年前
14k
7
1

前端使用puppeteer 爬虫生成《React.js 小书》PDF并合并

知道这启动浏览器打开页面关闭浏览器主流程后，再来看几个API。 2.4 知道了以上这些API后，就可以开始写主程序了。简单说下：实现功能和主流程。从上面React.js小书截图来看。 1、打开浏览器，进入目录页，生成0. React 小书目录.pdf 2、跳转到1. Rea…

若川
7年前
10k
222
24

前端爬虫cheerio&&puppeteer

最近在做一个小程序项目，需要爬取第三方数据，于是开始重捡起来爬虫，其实前端爬虫挺好实现的，但因为现在网页出现了SPA，于是开始疯狂踩坑，聊记此文，以慰诸君。但。。。但是，上面例子爬取掘金是不行的，因为掘金就是经典的SPA，服务器只返回一个空的挂载节点，毫无数据。于是引出无头浏…

南方小菜
6年前
6.5k
69
3

反击爬虫，前端工程师的脑洞可以有多大？

对于一张网页，我们往往希望它是结构良好，内容清晰的，这样搜索引擎才能准确地认知它。而反过来，又有一些情景，我们不希望内容能被轻易获取，比方说电商网站的交易额，教育网站的题目等。因为这些内容，往往是一个产品的生命线，必须做到有效地保护。这就是爬虫与反爬虫这一话题的由来。但是世…

土豆君32
8年前
21k
1.0k
36

反击爬虫，前端工程师的脑洞可以有多大？

Node: Puppeteer + 图像识别实现百度指数爬虫

之前看过一篇脑洞大开的文章，介绍了各个大厂的前端反爬虫技巧，但也正如此文所说，没有100%的反爬虫方法，本文介绍一种简单的方法，来绕过所有这些前端反爬虫手段。可以发现，百度指数实际上在前端做了一定的反爬虫策略。当鼠标移动到图表上时，会触发两个请求，一个请求返回一段html，一…

岛书Z
8年前
8.7k
196
8