12 爬虫urllib_爬虫概念+基本使用

76 阅读1分钟

爬虫相关概念

爬虫核心

1、爬取网页 : 获取整个网页,包含了网页中所有的内容
2、解析数据 :将网页中你得到的数据进行解析
3、难点 : 爬虫和反爬虫之间的博弈

爬虫分类

1、通用爬虫
    
       不过爬取的数据都是无用的 ,所以我们不用这个
       
 
2、 聚焦爬虫

        根据需求,实现爬虫程序,可以抓取相应的数据

urllib库基本使用

不需要安装 使用之前都要导入 urllib.request

使用 urllib 来获取 百度首页的源码

  • image.png
  1. image.png

  2. image.png

获取响应中的页面的源码时 ,我们需要 使用 解码格式 , 要把 二进制 转为字符串格式 解码decode('编码格式') ,其中的编码格式 是从f12中查看源代码中找到源代码的编码格式是啥 就写啥

  1. image.png

    image.png

  2. image.png

    image.png