持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第10天
听课笔记
在网站上如果有想要保存的图片视频或文章的话,都是可以用爬虫来实现的。 爬虫就是通过编写程序来爬取互联网上的资源(图片、音频、视频、数据)
爬虫可以用python,Java或c来实现。编程语言只是工具,目的是抓取数据。 python 在众多编程语言中,小白上手快,语法简单并且有很多爬虫能用到的第三方支持库,可以达到事半功倍的效果。
爬虫合法吗?
爬虫在法律上是不被禁止的,但是也具有违法风险。就像菜刀🔪,法律允许菜刀存在,但不允许菜刀用来砍人。 爬虫分为善意的爬虫和恶意的爬虫 善意的爬虫:不破坏爬取网站的资源(正常访问,一般频率不高,不窃取用户的隐私) 恶意的爬虫:影响网站的正常运营(抢票,秒杀,疯狂solo导致网站宕机)
要时常优化自己的爬虫程序避免干扰到网站的正常运行,并且在使用爬取到的数据时,发现涉及到用户隐私等敏感内容时,要及时终止爬取和传播
矛&盾
反扒机制 门户网站,可以通过制定相关的策略或者技术手段,防止爬虫程序进行数据的爬取
反反爬策略 爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站中相关的数据。
君子协议(规定了哪些数据可以爬取哪些数据不可以爬取)
如何查看robot.txt
在浏览器的网址搜索栏中,输入网站的根域名,然后再输入/robot.txt。比如,必应的robots.txt网址:
User-agent: 爬虫的名称
Disallow: 不允许爬虫访问的地址
Allow: 允许爬虫访问的地址
若User-agent是*,则表示对象是所有爬虫。