目标数据格式分类

爬虫所爬的数据从接口返回获取，那接口返回的内容主要分两类：

1. html文档格式，数据已经渲染到页面上了

这种情况在上一篇的例子已经说了哦，详情请看 👉写爬虫？前端er何必用python

2. 纯数据格式，如json格式

这一种比返回html的简单不要太多，举个例子：比如要爬这个微信文章列表，mp.weixin.qq.com/mp/appmsgal…

简单分析，即可拿到数据请求接口：

然后直接fetch下，数据就到手了：

fetch(
  "https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=MzA3NDY5NzkwMQ==&album_id=1754421961746612229&count=10&begin_msgid=2650889129&begin_itemidx=1&uin=&key=&pass_ticket=&wxtoken=&devicetype=&clientversion=4.0.0.99024&__biz=MzA3NDY5NzkwMQ%3D%3D&appmsg_token=&x5=0&f=json"
)
  .then((response) => {
    return response.json();
  })
  .then((res) => {
    console.log(111, res);
  });

然后处理数据，保存为json文件的细节就不说了

其他

上面观点比较主观，欢迎大家补充。

js爬虫-目标数据格式分类

目标数据格式分类

1. html文档格式，数据已经渲染到页面上了

2. 纯数据格式，如json格式

其他