python基础学习步骤分享

120 阅读2分钟

Python问世以来,基于这项技术的得以展开的网站和软件项目不计其数,Python因独有的优势而深受世界各地的开发者喜爱。
首先是简单,我们可以说Python是简约的语言,非常易于读写,遇到问题时,程序员可以把更多的注意力放在问题本身上,而不用花费太多精力在程序语言、语法上。其次,他可以免费的进行学习,兼容性也很强。小编也是用python很多年了,综合来看python应用最多的场景还是web快速开发、爬虫、自动化运维。其中最主要的还是爬虫的使用居多。
爬虫在开发过程中也有很多复用的过程,这里总结一下分享给大家,让很多新学爬虫的小伙伴知道也能节省很多学习的弯路。

1、基本抓取网页的方式有2种
get

import requestsfrom bs4 import BeautifulSoupurl = "https://cn.bing.com/search?q=爬虫CSDN&qs=n&form=QBRE&sp=-1&pq=爬虫csdn&sc=5-6&sk=&cvid=0B13B88D8F444A0182A4A6C36E463179/"response = requests.get(self.url

post

#导入工具,内置的库import urllibimport urllib2#加一个\可以换行#response = \#urllib2.urlopen("https://hao.360.cn/?wd_xp1")#print response.read()request = urllib2.Request('http://www.baidu.com')#response = urllib2.urlopen(request)#构造post请求params={}params['account']='jredu'params['pwd']=''#对数据进行编码data = urllib.urlencode(params)response = urllib2.urlopen(request,data)print response.urlprint response.codeprint response.read()

2、使用代理IP
在日常开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP,
在python爬虫中requests可以通过此类方式可以设置代理访问网页,如下代码片段:

#! -*- encoding:utf-8 -*-import requestsimport random# 要访问的目标页面targetUrl = "http://httpbin.org/ip"# 要访问的目标HTTPS页面# targetUrl = "https://httpbin.org/ip"# 代理服务器(产品官网 www.16yun.cn)proxyHost = "t.16yun.cn"proxyPort = "31111"# 代理验证信息proxyUser = "username"proxyPass = "password"proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {"host" : proxyHost,"port" : proxyPort,"user" : proxyUser,"pass" : proxyPass,}# 设置 http和https访问都是用HTTP代理proxies = {"http" : proxyMeta,"https" : proxyMeta,}# 设置IP切换头tunnel = random.randint(1,10000)headers = {"Proxy-Tunnel": str(tunnel)}resp = requests.get(targetUrl, proxies=proxies, headers=headers)print resp.status_codeprint resp.text

还有cookie的处理、伪装浏览器、页面解析、验证码的处理等步骤。今天主要就分享这些,下次重点给大家分享多线程并发抓取。在爬取过程中如果用单线程太慢的话,就需要多线程了来提高爬取效率了。