定义:
按照一定规则去爬取我们所需要的信息,主要通过对URL的请求来实现。
作用:
数据监控、数据收集、信息集合、资源采集。
关于域名:
协议 二级域名.一级域名.域名后缀/资源的路径/网址参数(?后面)
网络爬虫的分类:
-
全网爬虫:各大搜索引擎
-
主题爬虫:只选择需求相关信息
-
增量式爬虫:只爬取数据库中改变的部分
-
深层网络爬虫:隐藏在表单后的页面
爬虫遵守协议--君子协议:
robots.txt是一种存放于网址根目录下的ASCII编码的文本文件,他告诉网络搜索引擎的漫游器(网络蜘蛛),哪些内容不应被搜索引擎的漫游器获取,哪些可以获取。该协议是一种约定俗成,不是一种规范。
以百度为例,可以看看协议的内容:
爬虫策略:
-
广度优先(BFS):又称宽度优先搜索,或横向优先搜索,是一种图形搜索演算法。BFS是从根节点开始,沿着树的宽度遍历树的节点,发现目标演算结束。以网站为例,先获取整个首页的网址的url,再获取url里面的url。
-
深度优先(DFS):一种用于遍历或搜索树或图的算法。沿着树的深度遍历树的结点,尽可能深的搜索树的分支。以网站为例,先网站选择一个url,深度挖掘这个url里面的url。
感兴趣的可以关注本萌萌公众号