node爬虫 - Lorsqure的收藏集 - 掘金

node爬虫

更多收藏集

14篇文章 · 0订阅

用Python爬取了全国近5000家旅游景点，分析国庆去哪玩

旅游景点的数据是从网上爬取的，该数据包含以下维度：景点名称，所属省市区，景点简介，门票价格，评分，近期销量，景点评级等。基本上没什么反爬，加点延时别爬太快就是了... 爬完之后看了下数据库有 4572 条数据，我想应该够了吧... 1. 景点销量排行榜直接从数据库查出数据，…

全村de希望
5年前
5.7k
21
19

一只node爬虫的升级打怪之路

我一直觉得，爬虫是许多web开发人员难以回避的点。我们也应该或多或少的去接触这方面，因为可以从爬虫中学习到web开发中应当掌握的一些基本知识。而且，它还很有趣。我是一个知乎轻微重度用户，之前写了一只爬虫帮我爬取并分析它的数据，我感觉这个过程还是挺有意思，因为这是一个不断给自己…

相学长
8年前
10k
341
20

Node.js + Express 认证微信公众号

之前看过一些node做微信公众号认证的教程，自己也想用node把微信和小程序的开发内容学习一下，包括登录机制等，以后就不用总依赖后端的小伙伴帮忙了，期望可以自己完成全栈的开发。结果却刚刚完成第一步的域名认证，记录了一下过程，共同学习。 1. 云服务器购买这一步拖了好长时间，…

愚坤秦少卫
7年前
15k
425
25

Node.js + Express 认证微信公众号

node 爬虫，使用 Google puppeteer 抓取 One一个的网页数据

puppeteer 就不多介绍了，就是一个无界面化的谷歌浏览器。作者本人是前端，后端方面的知识不太擅长，感觉漏洞还是蛮多的。本教程是作者见猎心喜然后把玩了一下写的，有不合理的地方还请包涵。本例子是使用顺序爬取，没有用并行爬取，并设置了延时器，主要是担心访问频次太高会被屏蔽…

猪不乐意
8年前
5.8k
73
评论

Node: Puppeteer + 图像识别实现百度指数爬虫

之前看过一篇脑洞大开的文章，介绍了各个大厂的前端反爬虫技巧，但也正如此文所说，没有100%的反爬虫方法，本文介绍一种简单的方法，来绕过所有这些前端反爬虫手段。可以发现，百度指数实际上在前端做了一定的反爬虫策略。当鼠标移动到图表上时，会触发两个请求，一个请求返回一段html，一…

岛书Z
8年前
8.7k
196
8

Node.js入门系列（一）

首先要感谢很多私信和评论的小伙伴的信任和鼓励，让我有动力继续写下去。大前端很大，大到我们常常看不到尽头，零零散散的学习总是让我们无法触类旁通，相互鼓励和"揭短"才能让自己变得更强大，所以我在文末为独行的小伙伴准备了前端大家庭，有她，前端进阶不孤独。我们仰慕技术大佬，而他们也曾…

前端格局
5年前
36k
335
27

使用 Node.js 来开发一个资讯爬虫

爬虫流程概括下来就是把目标网站的HTML下载到本地再进行数据提取。使用Promise来进行包装，便于后面使用的时候用上async/await。因为有很多网站是在客户端渲染的，所以下载到的页面不一定包含想要的HTML内容，我们可以使用Google的puppeteer来下载客户端…

木木的木云
8年前
4.4k
69
2

使用 Node.js 来开发一个资讯爬虫

基于Node.js的裁判文书网爬虫分析

因为笔者在线上实习时的需求，需要做一个裁判文书网的爬虫，本以为，一个政府网站爬虫嘛会有多难？但当笔者开始爬的时候，笔者发现自己错了，困难重重！好在最后解决了，笔者将代码重构放在github上之后在这里写下了写这个爬虫的整个思路。一个大大的搜索框，我们的思路大致也从这里开始。 …

fishcui
7年前
2.7k
26
11

写个爬虫呗

之前写了个小爬虫，用来爬当当的图书信息用的，挺好玩，分享一下吧。整个爬虫非常简单，主要是使用request库+cheerio解析，实现非常粗糙，今天正好理一下思路。首先，准备工作，就是各种库的安装以及其他前置工作的准备，比如页面分析。整个流程实际上比较简单，适合像我这样的菜…

黄小帅
8年前
2.2k
50
4

50行代码，Node爬虫练手项目 🕷️

项目中基本每一个操作都写有注释，适合对 Node 爬虫感兴趣的同学对其有基础的了解。 50 lines, minimalist node crawler for Github Trending. 一个50行的 node 爬虫，一个简单的 axios, express, chee…

破竹
7年前
10k
64
8