爬虫相关概念
爬虫核心
1、爬取网页 : 获取整个网页,包含了网页中所有的内容
2、解析数据 :将网页中你得到的数据进行解析
3、难点 : 爬虫和反爬虫之间的博弈
爬虫分类
1、通用爬虫
不过爬取的数据都是无用的 ,所以我们不用这个
2、 聚焦爬虫
根据需求,实现爬虫程序,可以抓取相应的数据
urllib库基本使用
不需要安装 使用之前都要导入 urllib.request
使用 urllib 来获取 百度首页的源码
获取响应中的页面的源码时 ,我们需要 使用 解码格式 , 要把 二进制 转为字符串格式 解码decode('编码格式') ,其中的编码格式 是从f12中查看源代码中找到源代码的编码格式是啥 就写啥