python数据爬虫(一)

107 阅读19分钟

定义:

按照一定规则去爬取我们所需要的信息,主要通过对URL的请求来实现。

作用:

数据监控、数据收集、信息集合、资源采集。

关于域名:

movie.douban.com/subject/492…

协议 二级域名.一级域名.域名后缀/资源的路径/网址参数(?后面)

网络爬虫的分类:

  • 全网爬虫:各大搜索引擎

  • 主题爬虫:只选择需求相关信息

  • 增量式爬虫:只爬取数据库中改变的部分

  • 深层网络爬虫:隐藏在表单后的页面

爬虫遵守协议--君子协议:

robots.txt是一种存放于网址根目录下的ASCII编码的文本文件,他告诉网络搜索引擎的漫游器(网络蜘蛛),哪些内容不应被​搜索引擎的漫游器获取,哪些可以获取。该协议是一种约定俗成,不是一种规范。

以百度为例,可以看看协议的内容:

爬虫策略:

  • 广度优先(BFS):
    又称宽度优先搜索,或横向优先搜索,是一种图形搜索演算法。BFS是从根节点开始,沿着树的宽度遍历树的节点,发现目标演算结束。
    以网站为例,先获取整个首页的网址的url,再获取url里面的url。
  • 深度优先(DFS):
    一种用于遍历或搜索树或图的算法。沿着树的深度遍历树的结点,尽可能深的搜索树的分支。
    以网站为例,先网站选择一个url,深度挖掘这个url里面的url。

感兴趣的可以关注本萌萌公众号