爬虫 - Hosseini的收藏集 - 掘金

爬虫

更多收藏集

3篇文章 · 0订阅

NodeJs爬虫抓取古代典籍，共计16000个页面心得体会总结，附带对应的React+ Redux 前端和 Koa2服务端代码

之前研究数据，零零散散的写过一些数据抓取的爬虫，不过写的比较随意。有很多地方现在看起来并不是很合理这段时间比较闲，本来是想给之前的项目做重构的。后来利用这个周末，索性重新写了一个项目，就是本项目 guwen-spider。目前这个爬虫还是比较简单的类型的，直接抓取页面，…

fanyang
8年前
5.4k
246
16

temme：优雅地从 HTML 提取 JSON 数据

本文介绍了一个从 HTML 提取 JSON 数据的工具，并以豆瓣电影的例子展示了该工具的使用方法。本文中用到了大量的 CSS 选择器，CSS 选择器可以参考 MDN。最近几个月写 Node 爬虫比较多，解析 HTML 文档用的工具是 cheerio（cheerio 可以认为是…

XaYvier
8年前
5.1k
117
5

temme：优雅地从 HTML 提取 JSON 数据

如果有人问你爬虫抓取技术的门道，请叫他来看这篇文章

web是一个开放的平台，这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展。然而，正所谓成也萧何败也萧何，开放的特性、搜索引擎以及简单易学的html、css技术使得web成为了互联网领域里最为流行和成熟的信息传播媒介；但如今作为商业化软件，web这个平台上的内容信息…

5u9ar
8年前
21k
760
23