scrapy爬虫（一）基础知识

2021-09-03 215 阅读1分钟

B站学习爬虫的学习笔记，视频链接：
www.bilibili.com/video/BV1ha…

反爬机制

门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。

反反爬策略

爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网

robots.txt协议:

君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。

www.bilibili.com/robots.txt

http协议

概念:就是服务器和客户端进行数据交互的一种形式.

常用请求头信息

User-Agent:请求载体的身份标识
Connection:请求完毕后，是断开连接还是保持连接

常用响应头信息

Content-Type:服务器响应回客户端的数据类型

https协议:

安全的超文本传输协议

加密方式

对称秘钥加密
非对称秘钥加密
证书秘钥加密