爬虫概述持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第10天 1 1 爬虫概述-1_哔哩哔哩_

持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第10天

听课笔记

在网站上如果有想要保存的图片视频或文章的话，都是可以用爬虫来实现的。爬虫就是通过编写程序来爬取互联网上的资源（图片、音频、视频、数据）

爬虫可以用python，Java或c来实现。编程语言只是工具，目的是抓取数据。 python 在众多编程语言中，小白上手快，语法简单并且有很多爬虫能用到的第三方支持库，可以达到事半功倍的效果。

爬虫合法吗？

爬虫在法律上是不被禁止的，但是也具有违法风险。就像菜刀🔪，法律允许菜刀存在，但不允许菜刀用来砍人。爬虫分为善意的爬虫和恶意的爬虫善意的爬虫:不破坏爬取网站的资源（正常访问，一般频率不高，不窃取用户的隐私）恶意的爬虫:影响网站的正常运营（抢票，秒杀，疯狂solo导致网站宕机）

要时常优化自己的爬虫程序避免干扰到网站的正常运行，并且在使用爬取到的数据时，发现涉及到用户隐私等敏感内容时，要及时终止爬取和传播

反扒机制门户网站，可以通过制定相关的策略或者技术手段，防止爬虫程序进行数据的爬取

反反爬策略爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据。

君子协议（规定了哪些数据可以爬取哪些数据不可以爬取）

在浏览器的网址搜索栏中，输入网站的根域名，然后再输入/robot.txt。比如，必应的robots.txt网址: User-agent: 爬虫的名称

Disallow: 不允许爬虫访问的地址

Allow: 允许爬虫访问的地址

若User-agent是*，则表示对象是所有爬虫。