网络爬虫的实现原理开启掘金成长之旅！这是我参与「掘金日新计划 · 2 月更文挑战」的第 14 天，点击查看活动详情在

开启掘金成长之旅！这是我参与「掘金日新计划 · 2 月更文挑战」的第 14 天，点击查看活动详情

在深入学习网络爬虫之前你必须对他的实现原理有一定的了解，网络爬虫主要分为两种，一种是通用网络爬虫，另一种是聚焦网络爬虫，下面来了解一下这两者的区别和特点：

通用网络爬虫

通用的网络爬虫首先要获取用户指定或者原始的UTL地址，并根据这个URL解析得到页面并进行存储等操作，如果出现其他URL就继续捕获爬取，新URL过多时就放到URL队列中，重复以上过程，就像循环语句一样，这里也可以设置一个停止条件，让爬虫在满足条件时停止爬取。

聚焦网络爬虫

下面来了解一下聚焦网络爬虫的爬取流程，聚焦爬虫与通用爬虫不同的是，聚焦需要有目的的进行爬虫，也就是说，需要增加一些条件控制和对目标的定义以此来排除不需要的内容，可想而知，聚焦爬虫要比通用爬虫更复杂一点。因此它的第一个步骤就是定义好要爬取的对象和关于对象的描述，然后获取原始URL并根据原始URL爬取页面，从中获取新URL并过滤掉与目标无关的新URL，与原始URL类似的，这些爬取出来的与目标有关的新URL也需要存储到一个URL列表中，然后根据搜索算法来确定URL的优先级，并规定下一步要爬取的URL，这个过程需要用到一些搜索策略，接下来就是重复上面的过程，直到满足停止条件才完成爬虫。