【美团技术沙龙】海量文章分类爬取,零基础教学附文档源码,就问还有谁???

594 阅读2分钟

小知识,大挑战!本文正在参与“  程序员必备小知识  ”创作活动

本文同时参与 「掘力星计划」  ,赢取创作大礼包,挑战创作激励金

Code皮皮虾 一个沙雕而又有趣的憨憨少年,和大多数小伙伴们一样喜欢听歌、游戏,当然除此之外还有写作的兴趣,emm...,日子还很长,让我们一起加油努力叭🌈

如果觉得写得不错的话,球球一个关注哦😉


爬取目标

可以看到美团技术文章是有着很多页的,所以我们肯定是要进行多页爬取的

image-20211020213726674

而且,可以看到每篇文章有着一些标签,那么我们可以根据标签分类,让这篇文章在每个分类中都存在

这样可以方便读者在阅读时能更多的阅读同一类别的文章

image-20211020213709856

网页分析

美团技术团队 (meituan.com)

image-20211020214055745

下面是给大家总结的多页爬取的规律,相信也不用我多说了吧,只要对第一页特殊处理即可,后面的通过当前页拼接URL

 https://tech.meituan.com/ #第一页
 ​
 https://tech.meituan.com/page/2.html  #第二页
 https://tech.meituan.com/page/3.html  #第三页
 https://tech.meituan.com/page/4.html  #第四页
 https://tech.meituan.com/page/5.html  #第五页

分析网页源码

image-20211020214421707

查看文章标题和标签对应的源码

image-20211021192533087

来到文章详情页,可以看到文章的内容都在,class为 content的div标签下

image-20211021192646331

OK,网页分析到此为止,总体上来说思路是比较简单的,但是实际爬取过程中是有一些难题的,比如将HTML转化为MarkDown,对于文章分类该怎么处理,这些视频中都会给出源码!


思路整理

  1. 获取到文章的标题和详情页URL,以及文章的标签
  2. 请求详情页获取文章内容
  3. 根据文章标签分门别类保存文章(需要将HTML转化为MarkDown)
  4. 查看

成果展示

image-20211020213251040

image-20211020213404969


视频教学

QAQ【美团技术沙龙】海量文章分类爬取,零基础教学附文档源码,就问还有谁???_哔哩哔哩_bilibili

行不更名,坐不改姓,全网都是Code皮皮虾,觉得不错的,球球有一个一键三连哦,哈哈😁

image.png


💖最后

我是 Code皮皮虾,一个热爱分享知识的 皮皮虾爱好者,未来的日子里会不断更新出对大家有益的博文,期待大家的关注!!!

创作不易,如果这篇博文对各位有帮助,希望各位小伙伴可以一键三连哦!,感谢支持,我们下次再见~~~


一键三连.png