1. 爬虫的界限

2. robots.txt 协议

（百科）是专用存放于网站根目录下的 ASCII 编码的文本文件，告诉网络搜索引擎的爬虫那些内容是不应该被爬取的，那些是可以被爬取的。入如果想单独定义搜索引擎的爬虫的子目录时，可以将自定义的设置合并到根目录下的 robots.txt 文件中，或者使用元数据

是服务器与客户端之间进行交流的一种方式

即加密后的HTTP 协议，安全的超文本传输协议；加密方式：证书秘钥加密

1、通用爬虫：抓取一整页的原码内容

2、聚焦爬虫：抓取页面中局部的

3、增量式爬虫：检测网站数据更新的情况

4、分布式爬虫