16 爬虫urllib_get请求+post请求

73 阅读1分钟

编码集的演变

由于计算机是美国人发明的,所以最早只有127个字符被编码到计算机里,也就是大小写英文和数字和一些符号 , 这就是ASCII编码

而处理中文显然是一个字节是不够的,至少需要两个字节 ,且不能和ASCII编码冲突 , 所以中国制定了 GB2312编码

而全世界有上百种语言,所以Unicode应运而生,Unicode把所有语言都统一到一套编码里面,这样就不会有乱码问题了

现代操作系统大部分编程语言都直接支持Unicode

不需要 get请求方式时

虽然也可以获取到,但每次获取前都要先知道要获取数据的unicode编码

image.png

不过这样的话,我们如果想要获取 不同人的信息还需要专门去查询它的 参数

image.png

所以 我们要使用 get请求

get请求方式 quote

把汉字变为Unicode编码

1、导入

image.png

2、 url 不写参数

image.png

3、 此时我们要将张真源 三个字变为 unicode编码

image.png

4、进行 url 拼接

image.png

所以 我们此时就可以获取谁都很方便了!!

get请求方式 urlencode

若 多个参数时,就可以使用

1、导入

image.png

2、 设计基础url

image.png

3、 把 多个参数写一个字典中

image.png

4、使用get请求的 urlencode

image.png

5、合并路径

image.png

7、进行爬取数据

image.png

post 请求方式

1、导入

image.png

2、 初始url

image.png

3、ua定制

image.png

4、里面的参数

image.png

4.1、注意 post请求的参数必须要进行编码 encode

image.png

5、爬取数据

参数是放在请求对象定制的方法中

image.png

6、结果是 字符串

image.png

转换 : 字符串 =》 json对象 反序列化

image.png

image.png