搜索引擎-网页处理|青训营笔记

115 阅读2分钟

这是我参与「第三届青训营 -后端场」笔记创作活动的第4篇笔记,我们通过爬虫获取到众多网页后,下面便是进行网页的处理,面对众多的网页,为了节省带宽,利用有用的资源获取到更多的信息网页,所以我们会有一定的策略进行网页搜索。 我们主要的策略由宽度(广度)优先,兼顾深度的遍历策略、不重复抓取策略、大站优先策略、合作抓取策略等主流的网页抓取策略

宽度(广度)优先,兼顾深度的遍历策略

深度优先:网络爬虫时,网络蜘蛛会从上到下,一个链接一个链接的链接下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。

广度优先:是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。

不重复抓取策略 保证一个变化不大的网页只抓取一次即可,防止重复抓取占用大量CPU和带宽资源,从而集中有限的资源区抓取更重要、质量更高的网页。 大站优先策略 我们将优质好的网页先进行抓取,以网站为单位来衡量网页重要性,然后根据等待下载的页面多少来判断下载优先级。

合作抓取策略(抓取提速策略) 增加爬虫数量可以提高总体抓取速度,但需要将工作量分解给不同的网页爬虫,以保证分工明确,防止出现多个爬虫抓取相同的页面,浪费资源。 1.通过web主机的IP地址来分解,让某个爬虫仅抓取某个地址段的网页2. 通过网页域名来分解,使某个爬虫仅抓取某个域名段的网页,将不同域名分配给不同爬虫抓取,某一个爬虫只抓取固定域名集合下的网页;这样保证不重复抓取大型网站的网页,中小型网站即便重复抓取也可以接受的策略分配任务。为了抓取大型网站,按照域名分解的策略更加合理