python爬虫系列(1.1-urllib中常用方法的介绍)

2018-11-08 140 阅读1分钟

一、关于urllib中常用方法的介绍

1、`urlopen`网络请求
`urlopen`方法是网络请求的方法,默认是`get`请求,如果传递了`data`是`post`请求
`from urllib import request`

`if name == "main":`
`response = request.urlopen('http://www.baidu.com')`
`print(response.read())`
2、`urlretrieve`下载文件
`from urllib import request`

`if name == "main":`
`# 下载整个网页`
`request.urlretrieve('http://www.baidu.com', 'baidu.html')`
`# 下载图片`
`request.urlretrieve('http://www.baidu.com/img/bd_logo1.png', 'baidu.png')`

二、关于编码的处理

1、urlencode将字典类型数据转换为parsed模式
1. from urllib import parse
3. if __name__ == "__main__":
4. dict1 = {
5. "name": "hello",
6. "age": "20",
7. "gender": "man"
8. }
9. re = parse.urlencode(dict1)
10. print(re) # name=hello&age=20&gender=man
2、parse_qs和parse_qsl反序列化
1. from urllib import parse
3. if __name__ == "__main__":
4. dict1 = {
5. "name": "hello",
6. "age": "20",
7. "gender": "man"
8. }
9. re = parse.urlencode(dict1)
10. print(re)
11. print(parse.parse_qs(re))

三、切割url的方法

1、urlsplit和urlparse方法
1. from urllib import request, parse
3. if __name__ == "__main__":
4. url = 'http://www.baidu.com?name=hello&age=20'
5. print(parse.urlsplit(url))
6. print(parse.urlparse(url))
8. # 输出
9. # SplitResult(scheme='http', netloc='www.baidu.com', path='', query='name=hello&age=20', fragment='')
10. # ParseResult(scheme='http', netloc='www.baidu.com', path='', params='', query='name=hello&age=20', fragment='')