编码集的演变
由于计算机是美国人发明的,所以最早只有127个字符被编码到计算机里,也就是大小写英文和数字和一些符号 , 这就是ASCII编码
而处理中文显然是一个字节是不够的,至少需要两个字节 ,且不能和ASCII编码冲突 , 所以中国制定了 GB2312编码
而全世界有上百种语言,所以Unicode应运而生,Unicode把所有语言都统一到一套编码里面,这样就不会有乱码问题了
现代操作系统大部分编程语言都直接支持Unicode
不需要 get请求方式时
虽然也可以获取到,但每次获取前都要先知道要获取数据的unicode编码
不过这样的话,我们如果想要获取 不同人的信息还需要专门去查询它的 参数
所以 我们要使用 get请求
get请求方式 quote
把汉字变为Unicode编码
1、导入
2、 url 不写参数
3、 此时我们要将张真源 三个字变为 unicode编码
4、进行 url 拼接
所以 我们此时就可以获取谁都很方便了!!
get请求方式 urlencode
若 多个参数时,就可以使用
1、导入
2、 设计基础url
3、 把 多个参数写一个字典中
4、使用get请求的 urlencode
5、合并路径
7、进行爬取数据
post 请求方式
1、导入
2、 初始url
3、ua定制
4、里面的参数
4.1、注意 post请求的参数必须要进行编码 encode
5、爬取数据
参数是放在请求对象定制的方法中
6、结果是 字符串
转换 : 字符串 =》 json对象 反序列化