首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
node爬虫
订阅
Lorsqure
更多收藏集
微信扫码分享
微信
新浪微博
QQ
14篇文章 · 0订阅
用Python爬取了全国近5000家旅游景点,分析国庆去哪玩
旅游景点的数据是从网上爬取的,该数据包含以下维度:景点名称,所属省市区,景点简介,门票价格,评分,近期销量,景点评级等。 基本上没什么反爬,加点延时别爬太快就是了... 爬完之后看了下数据库有 4572 条数据,我想应该够了吧... 1. 景点销量排行榜 直接从数据库查出数据,…
一只node爬虫的升级打怪之路
我一直觉得,爬虫是许多web开发人员难以回避的点。我们也应该或多或少的去接触这方面,因为可以从爬虫中学习到web开发中应当掌握的一些基本知识。而且,它还很有趣。 我是一个知乎轻微重度用户,之前写了一只爬虫帮我爬取并分析它的数据,我感觉这个过程还是挺有意思,因为这是一个不断给自己…
Node.js + Express 认证微信公众号
之前看过一些node做微信公众号认证的教程,自己也想用node把微信和小程序的开发内容学习一下,包括登录机制等,以后就不用总依赖后端的小伙伴帮忙了,期望可以自己完成全栈的开发。 结果却刚刚完成第一步的域名认证,记录了一下过程,共同学习。 1. 云服务器购买 这一步拖了好长时间,…
node 爬虫,使用 Google puppeteer 抓取 One一个 的网页数据
puppeteer 就不多介绍了,就是一个无界面化的谷歌浏览器。 作者本人是前端,后端方面的知识不太擅长,感觉漏洞还是蛮多的。 本教程是作者见猎心喜然后把玩了一下写的,有不合理的地方还请包涵。 本例子是使用顺序爬取,没有用并行爬取,并设置了延时器,主要是担心访问频次太高会被屏蔽…
Node: Puppeteer + 图像识别 实现百度指数爬虫
之前看过一篇脑洞大开的文章,介绍了各个大厂的前端反爬虫技巧,但也正如此文所说,没有100%的反爬虫方法,本文介绍一种简单的方法,来绕过所有这些前端反爬虫手段。 可以发现,百度指数实际上在前端做了一定的反爬虫策略。当鼠标移动到图表上时,会触发两个请求,一个请求返回一段html,一…
Node.js入门系列(一)
首先要感谢很多私信和评论的小伙伴的信任和鼓励,让我有动力继续写下去。 大前端很大,大到我们常常看不到尽头,零零散散的学习总是让我们无法触类旁通,相互鼓励和"揭短"才能让自己变得更强大,所以我在文末为独行的小伙伴准备了前端大家庭,有她,前端进阶不孤独。我们仰慕技术大佬,而他们也曾…
使用 Node.js 来开发一个资讯爬虫
爬虫流程概括下来就是把目标网站的HTML下载到本地再进行数据提取。 使用Promise来进行包装,便于后面使用的时候用上async/await。因为有很多网站是在客户端渲染的,所以下载到的页面不一定包含想要的HTML内容,我们可以使用Google的puppeteer来下载客户端…
基于Node.js的裁判文书网爬虫分析
因为笔者在线上实习时的需求,需要做一个裁判文书网的爬虫,本以为,一个政府网站爬虫嘛会有多难?但当笔者开始爬的时候,笔者发现自己错了,困难重重!好在最后解决了,笔者将代码重构放在github上之后在这里写下了写这个爬虫的整个思路。 一个大大的搜索框,我们的思路大致也从这里开始。 …
写个爬虫呗
之前写了个小爬虫,用来爬当当的图书信息用的,挺好玩,分享一下吧。整个爬虫非常简单,主要是使用request库+cheerio解析,实现非常粗糙,今天正好理一下思路。 首先,准备工作,就是各种库的安装以及其他前置工作的准备,比如页面分析。 整个流程实际上比较简单,适合像我这样的菜…
50行代码,Node爬虫练手项目 🕷️
项目中基本每一个操作都写有注释,适合对 Node 爬虫感兴趣的同学对其有基础的了解。 50 lines, minimalist node crawler for Github Trending. 一个50行的 node 爬虫,一个简单的 axios, express, chee…