网络爬虫的实现原理

121 阅读2分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 14 天,点击查看活动详情

 在深入学习网络爬虫之前你必须对他的实现原理有一定的了解,网络爬虫主要分为两种,一种是通用网络爬虫,另一种是聚焦网络爬虫,下面来了解一下这两者的区别和特点:

通用网络爬虫

 通用的网络爬虫首先要获取用户指定或者原始的UTL地址,并根据这个URL解析得到页面并进行存储等操作,如果出现其他URL就继续捕获爬取,新URL过多时就放到URL队列中,重复以上过程,就像循环语句一样,这里也可以设置一个停止条件,让爬虫在满足条件时停止爬取。

image.png

聚焦网络爬虫

 下面来了解一下聚焦网络爬虫的爬取流程,聚焦爬虫与通用爬虫不同的是,聚焦需要有目的的进行爬虫,也就是说,需要增加一些条件控制和对目标的定义以此来排除不需要的内容,可想而知,聚焦爬虫要比通用爬虫更复杂一点。因此它的第一个步骤就是定义好要爬取的对象和关于对象的描述,然后获取原始URL并根据原始URL爬取页面,从中获取新URL并过滤掉与目标无关的新URL,与原始URL类似的,这些爬取出来的与目标有关的新URL也需要存储到一个URL列表中,然后根据搜索算法来确定URL的优先级,并规定下一步要爬取的URL,这个过程需要用到一些搜索策略,接下来就是重复上面的过程,直到满足停止条件才完成爬虫。

image.png