{{ title }}
1,前言
无论做什么,都是有规则的。前面我们已经了解了爬虫,并且尝试着爬取百度页面。今天我们就来看看他的规则是怎样的,应该怎么玩。
2,网络爬虫引发的问题
2.1,网络爬虫的尺寸
有三种尺寸:小、中、大。我们一一了解一下叭。
-
小规模
数据量小、爬取速度不敏感,使用Requests库。爬取网页、玩转网页
-
中规模
数据规模较大,爬取速度敏感,使用Scrapy库。爬取网站,爬取系列网站
-
大规模
搜索引擎,爬取速度关键;定制开发;爬取全网、
看到这里。我们为什么会一开始学习Requests库。
2.2,网络爬虫的“性能骚扰”
Web服务器默认接收人类访问
受限于编写水平和目的,网络爬虫将会为Web服务器带来巨大的资源开销。
就是说每个人的知识储备不一样,因此代码的质量略有不同。好的代码,会被服务器很快处理,我们也会很快的得到需要的数据。这就如同高速公路,什么时候会堵车,什么时候会通畅。
2.2,网络爬虫的法律风险
- 服务器上的数据有产权归属
- 网络爬虫获取数据后牟利将带来法律风险。
也是因为这一点,所以迟迟没有学习爬虫,这一部分还是要特别注意的
2.3,网络爬虫的隐私泄露
网络爬虫可具备突破简单访问控制能力,获得被保护数据从而泄露个人隐私。
前面说过一个反爬虫机制,应该和这个有关吧。
2.4, 网络爬虫的限制
-
来源审查判断User-Agent进行限制
检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问
-
发布公告:Robots协议
告知所有爬虫网站的爬虫策略,要求爬虫遵守
所有第一条可以知道我们的行为他们是可以判断出来的,不是说他们不知道的
当然规则这个时候就出来了,应该遵守。
3,Robots协议
这是一个规则,起到约束的作用。
3.1,Robots协议介绍
- 他的全称:Robots Exclusion Standard,网络爬虫排除变准
- 作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。
- 形式:在网站根目录下的3,Robots.txt文件
3.2,Robots协议使用
就以京东为例叭
在地址栏输入
会发现:
这段文本应该怎么读呢?
*:代表所有;
/:代表根目录
3.3,Robots协议的遵守方式
- 网络爬虫:自动或 人工识别robots.txt,在进行内容爬取
- 约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险。
3.4,Robots协议的理解
可以不遵守,但也是分情景的,就以上面爬虫的尺寸为例
- 爬取网页、玩转网页:
- 访问量很小:可以遵守
- 访问量很大:建议遵守
- 爬取网站、爬取系列网站
- 非商用且偶尔:建议遵守
- 商业利益:必须遵守
- 爬取全网
- 必须遵守
人类行为可不参考Robots协议
4,总结
万物都是有规则的,所以这一部分并不是很难理解。当然最难的还是遵守,这种新闻也是有很多,或许有时候是一个别这样
这就是以上内容,我的笔记。
谢谢您的观看,文章有错误,欢迎你的指正;如果对您有帮助,是我的荣幸。