1. 爬虫的界限
- 公民的个人信息
- 非法获取计算机系统数据罪
- 破坏计算机信息系统罪
- 侵犯公民个人信息罪
2. robots.txt 协议
(百科) 是专用存放于网站根目录下的 ASCII 编码的文本文件,告诉网络搜索引擎的爬虫那些内容是不应该被爬取的,那些是可以被爬取的。 入如果想单独定义搜索引擎的爬虫的子目录时,可以将自定义的设置合并到根目录下的 robots.txt 文件中,或者使用元数据
3 HTTP 协议
3.1 概念
是服务器与客户端之间进行交流的一种方式
3.2 常用的请求头信息
- User-Agent:请求载体的身份信息
- connection : 请求完毕后,是断开还是保持连接
4 HTTPS 协议
即加密后的HTTP 协议,安全的超文本传输协议; 加密方式:证书秘钥加密
5. 加密方式
- 对称秘钥加密
- 非对称秘钥加密
- 证书秘钥加密
6. 爬虫分类
1、通用爬虫:抓取一整页的原码内容
2、聚焦爬虫: 抓取页面中局部的
3、增量式爬虫:检测网站数据更新的情况
4、分布式爬虫