js爬虫-目标数据格式分类

266 阅读1分钟

上一篇简单讲了一下js爬虫的思路与实践,没看过的同学可以看下. 写爬虫?前端er何必用python

这篇文章主要说下爬虫目标数据分哪几种情况:

目标数据格式分类

爬虫所爬的数据从接口返回获取,那接口返回的内容主要分两类:

1. html文档格式,数据已经渲染到页面上了

这种情况在上一篇的例子已经说了哦,详情请看 👉写爬虫?前端er何必用python

2. 纯数据格式,如json格式

这一种比返回html的简单不要太多,举个例子: 比如要爬这个微信文章列表,mp.weixin.qq.com/mp/appmsgal…

简单分析,即可拿到数据请求接口:

image.png

然后直接fetch下,数据就到手了:

fetch(
  "https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=MzA3NDY5NzkwMQ==&album_id=1754421961746612229&count=10&begin_msgid=2650889129&begin_itemidx=1&uin=&key=&pass_ticket=&wxtoken=&devicetype=&clientversion=4.0.0.99024&__biz=MzA3NDY5NzkwMQ%3D%3D&appmsg_token=&x5=0&f=json"
)
  .then((response) => {
    return response.json();
  })
  .then((res) => {
    console.log(111, res);
  });

image.png

然后处理数据,保存为json文件的细节就不说了

其他

上面观点比较主观,欢迎大家补充。