爬虫基础知识(不用看)

342 阅读1分钟

1. 爬虫的界限

  • 公民的个人信息
  • 非法获取计算机系统数据罪
  • 破坏计算机信息系统罪
  • 侵犯公民个人信息罪

2. robots.txt 协议

(百科) 是专用存放于网站根目录下的 ASCII 编码的文本文件,告诉网络搜索引擎的爬虫那些内容是不应该被爬取的,那些是可以被爬取的。 入如果想单独定义搜索引擎的爬虫的子目录时,可以将自定义的设置合并到根目录下的 robots.txt 文件中,或者使用元数据

3 HTTP 协议

3.1 概念

是服务器与客户端之间进行交流的一种方式

3.2 常用的请求头信息

  • User-Agent:请求载体的身份信息
  • connection : 请求完毕后,是断开还是保持连接

4 HTTPS 协议

即加密后的HTTP 协议,安全的超文本传输协议; 加密方式:证书秘钥加密

5. 加密方式

  1. 对称秘钥加密
  2. 非对称秘钥加密
  3. 证书秘钥加密

6. 爬虫分类

1、通用爬虫:抓取一整页的原码内容

2、聚焦爬虫: 抓取页面中局部的

3、增量式爬虫:检测网站数据更新的情况

4、分布式爬虫