搜索引擎-网页处理|青训营笔记这是我参与「第三届青训营 -后端场」笔记创作活动的第4篇笔记，我们通过爬虫获取到众多网页后

这是我参与「第三届青训营 -后端场」笔记创作活动的第4篇笔记，我们通过爬虫获取到众多网页后，下面便是进行网页的处理，面对众多的网页，为了节省带宽，利用有用的资源获取到更多的信息网页，所以我们会有一定的策略进行网页搜索。我们主要的策略由宽度（广度）优先，兼顾深度的遍历策略、不重复抓取策略、大站优先策略、合作抓取策略等主流的网页抓取策略

宽度（广度）优先，兼顾深度的遍历策略

深度优先：网络爬虫时，网络蜘蛛会从上到下，一个链接一个链接的链接下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。

广度优先：是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。

不重复抓取策略保证一个变化不大的网页只抓取一次即可，防止重复抓取占用大量CPU和带宽资源，从而集中有限的资源区抓取更重要、质量更高的网页。大站优先策略我们将优质好的网页先进行抓取，以网站为单位来衡量网页重要性，然后根据等待下载的页面多少来判断下载优先级。

合作抓取策略（抓取提速策略）增加爬虫数量可以提高总体抓取速度，但需要将工作量分解给不同的网页爬虫，以保证分工明确，防止出现多个爬虫抓取相同的页面，浪费资源。 1.通过web主机的IP地址来分解，让某个爬虫仅抓取某个地址段的网页2. 通过网页域名来分解，使某个爬虫仅抓取某个域名段的网页，将不同域名分配给不同爬虫抓取，某一个爬虫只抓取固定域名集合下的网页；这样保证不重复抓取大型网站的网页，中小型网站即便重复抓取也可以接受的策略分配任务。为了抓取大型网站，按照域名分解的策略更加合理