不正经开场白

有没有发现从第三关开始真的是越来越难了！前面三关顺利的话，我们就可以来到第四关了，本关的难点是理解题意，并顺利从页面解析并拼接出需要的目标密码。

第四关地址：

http://www.heibanke.com/lesson/crawler_ex03

解题思路

首次进入题目页面，同样的跳转到了登录页面：

登录页面

登录成功后，出现如下页面，发现还是猜密码。

登录成功

但这次提示密码不是试出来的，而是需要找出来，那从哪里找呢？

我们就按前面几关的惯例随便输入个数字试下吧：

密码错误页面

提示密码错误，同时给出了下一步操作的提示，一个找密码的页面，继续访问该页面：

密码列表

初步观察，页面的表格中有两列，其中一列是密码的位置（还是随机的），另外一列是密码的值。

猜测是将密码的值拼接成一个字符串，但是页面只有 13 页，每页 8 个数值，正好 100 个数，而位置数最大的出现了 100，将这 100 个数放入到 dict(location,value) 里，然后再对 dict 的 key 进行排序，然后再对 value 进行拼接，不就得到密码了嘛。

然而现实是残酷的，仔细观察后发现密码的位置中存在重复，也就是遍历完 13 页数据，并不能得到所有的 密码值，然后我就猜想是不是对没有出现在页面的位置进行填充 0处理，发现还是失败……

在多次试验中，发现每次获取到的密码的位置并不是相同的，也就是页面里的随机的意思。

就是需要我们不断的调用查询密码列表页面，一直到密码的位置能够填充 0-100 这些个 key 为止，然后就能够获取到所有密码的值了。

实现代码

# coding=utf-8import requests, bs4# 题目URLurl = 'http://www.heibanke.com/lesson/crawler_ex03/'# 登录URL，获取cookielogin_url = 'http://www.heibanke.com/accounts/login/?next=/lesson/crawler_ex03/'# 获取密码URLpwd_url = 'http://www.heibanke.com/lesson/crawler_ex03/pw_list/'login_data = {'username':'liuhaha', 'password':'123456'}# 获取默认cookieresponse = requests.get(url)if response.status_code == 200:    print('Welcome')cookies = response.cookies# 登录 login_data['csrfmiddlewaretoken'] = cookies['csrftoken']login_response = requests.post(login_url, allow_redirects=False, data=login_data, cookies=cookies)if login_response.status_code == 200:    print('login sucessfully')# 获取登录成功后的cookiecookies = login_response.cookiespayload = {}pwd_data = {}i = 0# 通过观察，密码应该有100个数字组成。# 由于每次获取到的密码会有重复，所以不是一次查询完就能获取到所有数字# 这里一直进行查询，直到获取到100个数字while len(pwd_data) < 100:    # 因为每一页的密码位置都是随机给出的，其实这里可以不传page参数，一直调用pwd_url也可以获取到全部密码    payload['page'] = i % 13    pwd_url = 'http://www.heibanke.com/lesson/crawler_ex03/pw_list/'    print('------------------------')    print('loading data from %s?page=%s ...' %(pwd_url, i%13))    pwd_response = requests.get(pwd_url, cookies=cookies, params=payload)    soup = bs4.BeautifulSoup(pwd_response.text, "html.parser")    # 获取表格    table = soup.select('[class="table table-striped"]')    # 解析表格数据，过滤掉表头    temp_data = {}    for tr in table[0].find_all('tr')[1:]:        tds = tr.find_all('td')        # 分别取出password的位置及其对应的数字        pwd_data[int(tds[0].getText())] = tds[1].getText()        temp_data[int(tds[0].getText())] = tds[1].getText()    # print(temp_data)    i = i + 1    print('The load has run %s times and now the pwd_data length is %s' % (i, len(pwd_data)))# 拼接passwordpassword = ''for key in sorted(pwd_data.keys()):    password = password + pwd_data[key]print(password)# 重新登录playload = {'username':'liuhaha', 'password':password}playload['csrfmiddlewaretoken'] = cookies['csrftoken']r = requests.post(url, data=playload, cookies=cookies)print(u'执行结果：' + str(r.status_code))if r.status_code == 200:    if u"成功" in r.text:        print(u'闯关成功！密码为：' + password)else:    print(u'Failed')

微信上看代码有点费劲，可以后台回复「第四关」获取源码文件。