scrapy爬虫(一)基础知识

215 阅读1分钟

B站学习爬虫的学习笔记,视频链接:
www.bilibili.com/video/BV1ha…

反爬机制

  • 门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。

反反爬策略

  • 爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网

robots.txt协议:

  • 君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。

www.bilibili.com/robots.txt

image.png

http协议

  • 概念:就是服务器和客户端进行数据交互的一种形式.

常用请求头信息

  • User-Agent:请求载体的身份标识
  • Connection:请求完毕后,是断开连接还是保持连接

常用响应头信息

  • Content-Type:服务器响应回客户端的数据类型

https协议:

  • 安全的超文本传输协议

加密方式

  • 对称秘钥加密
  • 非对称秘钥加密
  • 证书秘钥加密