python数据爬虫（一）定义：按照一定规则去爬取我们所需要的信息，主要通过对URL的请求来实现。作用：数据监控、数据收

定义：

按照一定规则去爬取我们所需要的信息，主要通过对URL的请求来实现。

作用：

数据监控、数据收集、信息集合、资源采集。

关于域名：

movie.douban.com/subject/492…

协议二级域名.一级域名.域名后缀/资源的路径/网址参数（？后面）

网络爬虫的分类：

爬虫遵守协议--君子协议：

robots.txt是一种存放于网址根目录下的ASCII编码的文本文件，他告诉网络搜索引擎的漫游器（网络蜘蛛），哪些内容不应被搜索引擎的漫游器获取，哪些可以获取。该协议是一种约定俗成，不是一种规范。

以百度为例，可以看看协议的内容：

爬虫策略：

广度优先（BFS）：

又称宽度优先搜索，或横向优先搜索，是一种图形搜索演算法。BFS是从根节点开始，沿着树的宽度遍历树的节点，发现目标演算结束。

以网站为例，先获取整个首页的网址的url，再获取url里面的url。
深度优先（DFS）：

一种用于遍历或搜索树或图的算法。沿着树的深度遍历树的结点，尽可能深的搜索树的分支。

以网站为例，先网站选择一个url，深度挖掘这个url里面的url。

感兴趣的可以关注本萌萌公众号