12 爬虫urllib_爬虫概念+基本使用

2023-01-09 76 阅读1分钟

爬虫相关概念

爬虫核心

1、爬取网页 ： 获取整个网页，包含了网页中所有的内容
2、解析数据 ：将网页中你得到的数据进行解析
3、难点 ： 爬虫和反爬虫之间的博弈

爬虫分类

1、通用爬虫
    
       不过爬取的数据都是无用的 ，所以我们不用这个
       
 
2、 聚焦爬虫

        根据需求，实现爬虫程序，可以抓取相应的数据

urllib库基本使用

不需要安装 使用之前都要导入 urllib.request

使用 urllib 来获取百度首页的源码

获取响应中的页面的源码时，我们需要使用解码格式，要把二进制转为字符串格式解码decode('编码格式') ，其中的编码格式是从f12中查看源代码中找到源代码的编码格式是啥就写啥