上一篇简单讲了一下js爬虫的思路与实践,没看过的同学可以看下. 写爬虫?前端er何必用python
这篇文章主要说下爬虫目标数据分哪几种情况:
目标数据格式分类
爬虫所爬的数据从接口返回获取,那接口返回的内容主要分两类:
1. html文档格式,数据已经渲染到页面上了
这种情况在上一篇的例子已经说了哦,详情请看 👉写爬虫?前端er何必用python
2. 纯数据格式,如json格式
这一种比返回html的简单不要太多,举个例子: 比如要爬这个微信文章列表,mp.weixin.qq.com/mp/appmsgal…
简单分析,即可拿到数据请求接口:
然后直接fetch下,数据就到手了:
fetch(
"https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=MzA3NDY5NzkwMQ==&album_id=1754421961746612229&count=10&begin_msgid=2650889129&begin_itemidx=1&uin=&key=&pass_ticket=&wxtoken=&devicetype=&clientversion=4.0.0.99024&__biz=MzA3NDY5NzkwMQ%3D%3D&appmsg_token=&x5=0&f=json"
)
.then((response) => {
return response.json();
})
.then((res) => {
console.log(111, res);
});
然后处理数据,保存为json文件的细节就不说了
其他
上面观点比较主观,欢迎大家补充。