node - 韩杰的收藏集 - 掘金

node

更多收藏集

3篇文章 · 0订阅

用Node抓站（三）：防止被封

抓取如果抓取的太快太频繁会被源站封IP，本文会介绍下通过限流、限速和使用代理的方式来防止被封上篇文章，抓取「电影天堂」最新的170部电影，在抓取首页电影list之后，会同时发出170个请求抓取电影的详情页，这样在固定时间点集中爆发式的访问页面，很容易在日志中被找出来，而且并发…

三水清
8年前
2.7k
57
评论

用 Node 抓站（二）：Promise 使代码更优雅

本文主要目的是通过抓取「电影天堂」的最新电影名称和下载地址，展现如何抓取列表之后，继续抓取正文内容使用《用 Node 抓站（一）》（没看过的可以翻看下本公众号的历史文章）当中写的 spider.js 代码可以直接用下面的代码把列表抓出来： var spider = require(…

三水清
8年前
2.1k
64
评论

用 Node 抓站（一）：怎么写出自己满意的代码

如果只写怎么抓取网页，肯定会被吐槽太水，满足不了读者的逼格要求，所以本文会通过不断的审视代码，做到令自己满意（撸码也要不断迸发新想法！本文目标：抓取什么值得买网站国内优惠的最新商品，并且作为对象输出出来，方便后续入库等操作抓取常用到的 npm 模块本文就介绍两个：reques…

三水清
8年前
2.7k
81
5